定位误差小于20cm！MT F-CVT：增强泊车区域感知

发布人

文章地址：https://arxiv.org/pdf/2408.12575
当前的停车区域感知算法主要集中在检测有限范围内的空闲车位，并且依赖于误差较大的单应性投影来进行标注和推断。然而，随着先进驾驶辅助系统（ADAS）的发展，要求通过全面而智能的人机界面（HMI）与最终用户进行交互。这些接口应当提供停车区域的完整感知，包括区分空闲车位的入口线以及其他停车车辆的朝向。本文介绍了多任务鱼眼交叉视图Transformer（MT F-CVT），该算法利用来自四摄像头鱼眼环视摄像系统（SVCS）的特征，通过多头注意力机制生成详细的鸟瞰图（BEV）网格特征图。特征经过分割解码器和基于Polygon-YOLO的目标检测解码器处理，用于检测停车位和车辆。该模型在使用激光雷达标注的数据上训练，在25米 × 25米的真实开放道路场景中，物体定位的平均误差仅为20厘米。大型模型获得了0.89的F1得分。此外，小型模型在Nvidia Jetson Orin嵌入式板上以16帧每秒的速度运行，检测结果与大型模型相似。MT F-CVT在不同车辆和摄像头配置下表现出强大的泛化能力。
Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers

打开封面下载高清视频观看高清视频视频下载器

定位误差小于20cm！MT F-CVT：增强泊车区域感知

特斯拉的World Model是什么？怎么做端到端训练？

自动驾驶假数据效果逆天了！Panacea：如何生成全景可控BEV感知数据？

端到端自动驾驶：SparseDrive 算法详解

多模态3D检测相关2D和3D感知基础知识

【ICCV 2023】 CORE：协作重建助力多智能体协同感知！

香港理工大学最新！Slamesh: 使用激光雷达传感器进行实时定位和网格划分

LIO-Fusion：通过与GNSS/重新定位和车轮里程计的有效融合增强LIO

全球首发A725全大核架构！联发科天玑8400性能超越骁龙8 Gen2

FSD12.5.6.3四小时0干预，100%满电跑到0%，一镜到底无剪辑！

BLOS-BEV:BEV感知超200米！nuScenes和Argoverse双SOTA!

华为aeb失效？阿维塔11刚更新ads3.1就撞了！

性能提升近40%！ViPlanner：室内外局部导航全搞定（ICRA 2024）

Waabi最新！UnO：用于感知和预测的SOTA模型（超越监督方式）

逆天了！NeLF-Pro | 一个方法解决多种规模场景的快速渲染重建（CVPR'24）

端到端算法是什么？自动驾驶领域是怎么做的？

今年的智驾只有一个声音：端到端+大模型

多传感器标定的工具箱有哪些？

最近有哪些自动驾驶方向的github仓库值得star？

登顶Nature！带事件摄像机的低延迟自动驾驶视觉新方案！

批评理想汽车万言书，一次性说个痛快

自动驾驶规控工程师必备技能点！Coupling Trajectory Planning是个啥？

点云地图中的重定位

超全干货 | 自动驾驶中的传感器融合：前融合+后融合+特征级融合（方法与策略）

港科大最新！Vista：高保真度、通用可控性的自动驾驶世界模型

毫米波雷达视觉到底是怎么融合的？CenterFusion你搞懂了吗？

CVPR2023 Highlight | Unisim：Nerf+自动驾驶，这不会是魔法吧？

智能小桌宠更新

如何转行自动驾驶算法？后端开发转行到自动驾驶算法工程师

关于自动驾驶的一切（层级划分/Lidar/Radar/视觉感知/AI与发展等）

All in 算法并不是最佳职业发展道路？软件基础架构也是必须了解的！

自动驾驶主流的数据集有哪些？详解Argoverse数据集！

打 倒 一 切 反 贼 ！ 第一集

透彻！特斯拉occupancy network详解

GPT-4V与自动驾驶更配？GPT-4V在自动驾驶中的早期探索！

清华大学&英伟达 | DriveEnv-NeRF：基于NeRF实现高逼真自动驾驶场景，离线测试！

【CVPR 2024】鉴智机器人算法大佬揭秘3D场景流估计的最新工作——3DSFlabelling

2022最新！Nvidia完整阐释自动驾驶中的视觉感知（超赞技术）

UZH最新博士论文！事件摄像机的数据驱动方法

Segment Anything之后，分割的路在何方？

新时代降临！多模态大模型的结构范式都有啥？

打倒一切反贼！第一集