Zhangzhe's Blog

The projection of my life.

0%

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

URL

TL;DR

  • 传统 BEV 算法中 View Transform 都是通过 LSS 实现 Image ViewBEV View 的转变,这种视角转换方法依赖于图像视角的深度估计(显式或隐式)。

  • 本文提出一种新的通过时空注意力机制实现的 View Transform 方法,在 Neuscenes 数据集上取得了不错的 3D 目标检测成绩(略差于 BEVDet4D)。

Algorithm