V
主页
定位误差小于20cm!MT F-CVT:增强泊车区域感知
发布人
文章地址:https://arxiv.org/pdf/2408.12575 当前的停车区域感知算法主要集中在检测有限范围内的空闲车位,并且依赖于误差较大的单应性投影来进行标注和推断。然而,随着先进驾驶辅助系统(ADAS)的发展,要求通过全面而智能的人机界面(HMI)与最终用户进行交互。这些接口应当提供停车区域的完整感知,包括区分空闲车位的入口线以及其他停车车辆的朝向。本文介绍了多任务鱼眼交叉视图Transformer(MT F-CVT),该算法利用来自四摄像头鱼眼环视摄像系统(SVCS)的特征,通过多头注意力机制生成详细的鸟瞰图(BEV)网格特征图。特征经过分割解码器和基于Polygon-YOLO的目标检测解码器处理,用于检测停车位和车辆。该模型在使用激光雷达标注的数据上训练,在25米 × 25米的真实开放道路场景中,物体定位的平均误差仅为20厘米。大型模型获得了0.89的F1得分。此外,小型模型在Nvidia Jetson Orin嵌入式板上以16帧每秒的速度运行,检测结果与大型模型相似。MT F-CVT在不同车辆和摄像头配置下表现出强大的泛化能力。 Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers
打开封面
下载高清视频
观看高清视频
视频下载器
特斯拉的World Model是什么?怎么做端到端训练?
自动驾驶假数据效果逆天了!Panacea:如何生成全景可控BEV感知数据?
端到端自动驾驶:SparseDrive 算法详解
多模态3D检测相关2D和3D感知基础知识
【ICCV 2023】 CORE:协作重建助力多智能体协同感知!
香港理工大学最新!Slamesh: 使用激光雷达传感器进行实时定位和网格划分
LIO-Fusion:通过与GNSS/重新定位和车轮里程计的有效融合增强LIO
全球首发A725全大核架构!联发科天玑8400性能超越骁龙8 Gen2
FSD12.5.6.3四小时0干预,100%满电跑到0%,一镜到底无剪辑!
BLOS-BEV:BEV感知超200米!nuScenes和Argoverse双SOTA!
华为aeb失效?阿维塔11刚更新ads3.1就撞了!
性能提升近40%!ViPlanner:室内外局部导航全搞定(ICRA 2024)
Waabi最新!UnO:用于感知和预测的SOTA模型(超越监督方式)
逆天了!NeLF-Pro | 一个方法解决多种规模场景的快速渲染重建(CVPR'24)
端到端算法是什么?自动驾驶领域是怎么做的?
今年的智驾只有一个声音:端到端+大模型
多传感器标定的工具箱有哪些?
最近有哪些自动驾驶方向的github仓库值得star?
登顶Nature!带事件摄像机的低延迟自动驾驶视觉新方案!
批评理想汽车万言书,一次性说个痛快
自动驾驶规控工程师必备技能点!Coupling Trajectory Planning是个啥?
点云地图中的重定位
超全干货 | 自动驾驶中的传感器融合:前融合+后融合+特征级融合(方法与策略)
港科大最新!Vista:高保真度、通用可控性的自动驾驶世界模型
毫米波雷达视觉到底是怎么融合的?CenterFusion你搞懂了吗?
CVPR2023 Highlight | Unisim:Nerf+自动驾驶,这不会是魔法吧?
智能小桌宠更新
如何转行自动驾驶算法?后端开发转行到自动驾驶算法工程师
关于自动驾驶的一切(层级划分/Lidar/Radar/视觉感知/AI与发展等)
All in 算法并不是最佳职业发展道路?软件基础架构也是必须了解的!
自动驾驶主流的数据集有哪些?详解Argoverse数据集!
打 倒 一 切 反 贼 ! 第一集
透彻!特斯拉occupancy network详解
GPT-4V与自动驾驶更配?GPT-4V在自动驾驶中的早期探索!
清华大学&英伟达 | DriveEnv-NeRF:基于NeRF实现高逼真自动驾驶场景,离线测试!
【CVPR 2024】鉴智机器人算法大佬揭秘3D场景流估计的最新工作——3DSFlabelling
2022最新!Nvidia完整阐释自动驾驶中的视觉感知(超赞技术)
UZH最新博士论文!事件摄像机的数据驱动方法
Segment Anything之后,分割的路在何方?
新时代降临!多模态大模型的结构范式都有啥?