QUICK REVIEW

[論文レビュー] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Zhiqi Li, Wenhai Wang|arXiv (Cornell University)|Mar 31, 2022

Advanced Image and Video Retrieval Techniques被引用数 36

ひとこと要約

BEVFormer は grid-like BEV クエリを用いた時空間トランスフォーマーを使ってマルチカメラ画像から統一された BEV 表現を学習し、深度に依存せずにエンドツーエンドの3D検出とマップセグメンテーションを実現します。空間的クロスアテンションと時間的自己アテンションを統合することで nuScenes と Waymo で最先端の結果を達成します。

ABSTRACT

3D visual perception tasks, including 3D detection and map segmentation based on multi-camera images, are essential for autonomous driving systems. In this work, we present a new framework termed BEVFormer, which learns unified BEV representations with spatiotemporal transformers to support multiple autonomous driving perception tasks. In a nutshell, BEVFormer exploits both spatial and temporal information by interacting with spatial and temporal space through predefined grid-shaped BEV queries. To aggregate spatial information, we design spatial cross-attention that each BEV query extracts the spatial features from the regions of interest across camera views. For temporal information, we propose temporal self-attention to recurrently fuse the history BEV information. Our approach achieves the new state-of-the-art 56.9\% in terms of NDS metric on the nuScenes exttt{test} set, which is 9.0 points higher than previous best arts and on par with the performance of LiDAR-based baselines. We further show that BEVFormer remarkably improves the accuracy of velocity estimation and recall of objects under low visibility conditions. The code is available at \url{https://github.com/zhiqi-li/BEVFormer}.

研究の動機と目的

多視点画像から BEV特徴を学習することで深度情報に依存せず、カメラベースの3D知覚を動機づける。
複数の知覚タスクに対して時空間トランスフォーマを備えた統一的な BEV エンコーダを提案する。
フレーム間の時系列融合を可能にし、速度推定と遮蔽処理を改善する。

提案手法

BEV空間を照会する格子状の学習可能 BEVクエリを導入する。
空間的クロスアテンション（デフォーマブル）を用いて、視点間の関心領域でマルチカメラ特徴を集約する。
エゴモーションに合わせて整列された履歴BEV特徴と現在のBEVクエリを融合する時間的自己アテンションを用いる。
BEV格子セルからカメラ視点への3D参照点を投影してクロスアテンションを行う。
BEV特徴上でエンドツーエンドの3D検出ヘッドとマップセグメンテーションヘッドを採用する。

実験結果

リサーチクエスチョン

RQ1深度情報なしにマルチカメラ入力からBEV特徴を学習するにはどうすればよいか？
RQ2空間的な視点特徴と時間的歴史を効果的に融合して3D検出とマップセグメンテーションを支える時空間トランスフォーマは可能か？
RQ3カメラベース知覚における速度推定と遮蔽処理に対する時系列情報の影響は何か？
RQ4BEVFormerはnuScenesとWaymoにおいて従来のカメラベースおよびLiDARベースのベースラインとどう比較されるか？
RQ5共同学習時に複数の知覚タスクに有益な統一BEV表現は存在するか？

主な発見

BEVFormerは nuScenes のテストセットで 56.9% NDS を達成し、DETR3Dより 9.0 ポイント上回る。
BEVFormer はマップセグメンテーションで最先端の性能を達成し、車線セグメンテーションで Lift-Splat を5ポイント以上上回る。
時系列情報は速度推定と遮蔽物体のリコールを大幅に改善し、視認性サブセット全体で顕著な改善を示す。
BEVFormer は nuScenes の NDS および AP 指標で LiDARベースのベースラインに近づき、Waymo では DETR3D と比較して APH を改善する。
BEVFormer で検出とセグメンテーションを共同訓練すると、強力なマルチタスク性能と共有計算利点が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。