URL
TL;DR
BEVDet4D是基于BEVDet加入了时序信息的一篇论文- 具体来说就是将上一帧的
BEV Feature和本帧的BEV Feature对齐后Concat到一起送入BEV Encoder中进行BEV视角下的3D目标检测 BEVDet论文中的image encoder + view transformer完全保持不变- 由于有两帧的信息,所以对速度的预测相较于单帧有较大提升
Algorithm
整体流程

在 BEV Feature 层面(View Transformer 的输出)融合两帧信息
算法的伪代码表示
1 | class BEVDet4D: |
result

效果比
BEVDet好了不少,尤其是mAVE(速度误差)
Thought
- 没有很大的创新点,更像是
BEVDet的一个使用trick BEVDet的计算量主要分布在image encoder和view transformer,所以复用上一帧的BEV feature即充分利用了上一帧的计算量,对当前帧引入的额外计算量也比较可控(BEV encoder和task head都比较轻量)


















