BEVFormer:時空間トランスフォーマーを介したマルチカメラ画像からの鳥の目ビュー表現の学習
この作業では、著者はBEVFormerと呼ばれる新しいフレームワークを提示します。これは、複数の自動運転知覚タスクをサポートするための時空間トランスフォーマーを備えた統合BEV表現を学習します。一言で言えば、BEVFormerは、事前定義されたグリッド形状のBEVクエリを介して空間的および時間的空間と対話することにより、空間的および時間的情報の両方を活用します。空間情報を集約するために、著者は、各BEVクエリがカメラビュー全体の関心領域から空間的特徴を抽出するという空間的相互注意を設計します。時間的情報については、著者は、履歴BEV情報を繰り返し融合するための時間的自己注意を提案します。提案されたアプローチは、nuScenesテストセットのNDSメトリックに関して新しい最先端の56.9%を達成します。これは9.0です。以前の最高の芸術よりも高く、LiDARベースのベースラインのパフォーマンスと同等です。
背骨 | 方法 | Lr Schd | NDS | 地図 | memroy | 構成 | ダウンロード |
---|---|---|---|---|---|---|---|
R50 | BEVFormer-小さな | 24ep | 18.8 | 12.2 | 6500M | 構成 | モデル/ログ |
R101-DCN | BEVFormer-小さい | 24ep | - | - | 10500M | 構成 | TODO |
R101-DCN | BEVFormerベース | 24ep | 51.7 | 41.6 | 28500M | 構成 | モデル/ログ |
注:BEVFormer-tinyのモデルは、検証用の一時的なバージョンです。
この作業が研究に役立つ場合は、次のBibTeXエントリを引用することを検討してください。
@article{li2022bevformer, title={BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers}, author={Li, Zhiqi and Wang, Wenhai and Li, Hongyang and Xie, Enze and Sima, Chonghao and Lu, Tong and Qiao, Yu and Dai, Jifeng} journal={arXiv preprint arXiv:2203.17270}, year={2022} }
これらの優れたオープンソースプロジェクトに感謝します。