Zhangzhe's Blog

The projection of my life.

0%

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

URL

TL;DR

  • 本文提出一种 BEV 视角下的的 3D 目标检测算法,作者认为尽管深度对相机 3D 检测至关重要,但最近的方法中的深度估计却出奇地不足。
  • BEVDepth 通过利用显式深度监督(来自 lidar 点云)来解决这个问题。
  • 同时使用关键帧和过渡帧在 bev feature 维度进行特征融合,引入时序信息,提高模型效果。

Algorithm

bevdepth1.png

  • BEVDet4Dpipeline 很相似,区别是 BEVDepth 使用了 DepthNet 用激光雷达点云数据做了深度监督。
  • DepthNet 深度监督的输入是 6v 图像特征和每个相机的内外参,输出为 相机相关深度估计(camera_awareness_depth_estimation)
    bevdepth2.png

显式监督效果和 baseline 对比还是很赞的!
table.png
MAPNDS 吊打了一众基于纯视觉的算法

Thought

  • 多帧训练中过渡帧使用了 nuScenes 数据集的 Sweep 数据(没有人工标注的原始数据,只包含图像和 lidar 点云),无形中拓展了数据量。
  • 本文创新点不多,基本是 BEVDet4D + DepthNet,更像是一个工程优化,比如:用 cuda 写了 voxel pooling 过程,计算过程非常高效。