URL
TL;DR
- 本文提出一种
BEV
视角下的的3D
目标检测算法,作者认为尽管深度对相机3D
检测至关重要,但最近的方法中的深度估计却出奇地不足。 BEVDepth
通过利用显式深度监督(来自lidar
点云)来解决这个问题。- 同时使用关键帧和过渡帧在
bev feature
维度进行特征融合,引入时序信息,提高模型效果。
Algorithm
- 与
BEVDet4D
的pipeline
很相似,区别是BEVDepth
使用了DepthNet
用激光雷达点云数据做了深度监督。 DepthNet
深度监督的输入是6v
图像特征和每个相机的内外参,输出为 相机相关深度估计(camera_awareness_depth_estimation)
显式监督效果和 baseline 对比还是很赞的!
MAP
和NDS
吊打了一众基于纯视觉的算法
Thought
- 多帧训练中过渡帧使用了
nuScenes
数据集的Sweep
数据(没有人工标注的原始数据,只包含图像和 lidar 点云),无形中拓展了数据量。 - 本文创新点不多,基本是
BEVDet4D + DepthNet
,更像是一个工程优化,比如:用cuda
写了voxel pooling
过程,计算过程非常高效。