QUICK REVIEW

[論文レビュー] Scalability in Perception for Autonomous Driving: Waymo Open Dataset

Pei Sun, Henrik Kretzschmar|arXiv (Cornell University)|Dec 10, 2019

Video Surveillance and Tracking Methods参考文献 21被引用数 228

ひとこと要約

大規模なマルチモーダル Waymo Open Datasetを紹介。LiDARとカメラデータを同期、広範な3D/2Dアノテーション、スケーラビリティと自動運転 perception の地理的一般化を研究するためのベースライン。

ABSTRACT

The research community has increasing interest in autonomous driving research, despite the resource intensity of obtaining representative real world data. Existing self-driving datasets are limited in the scale and variation of the environments they capture, even though generalization within and between operating regions is crucial to the overall viability of the technology. In an effort to help align the research community's contributions with real-world self-driving problems, we introduce a new large scale, high quality, diverse dataset. Our new dataset consists of 1150 scenes that each span 20 seconds, consisting of well synchronized and calibrated high quality LiDAR and camera data captured across a range of urban and suburban geographies. It is 15x more diverse than the largest camera+LiDAR dataset available based on our proposed diversity metric. We exhaustively annotated this data with 2D (camera image) and 3D (LiDAR) bounding boxes, with consistent identifiers across frames. Finally, we provide strong baselines for 2D as well as 3D detection and tracking tasks. We further study the effects of dataset size and generalization across geographies on 3D detection methods. Find data, code and more up-to-date information at http://www.waymo.com/open.

研究の動機と目的

大規模で多様なマルチモーダルデータセットを公開することにより、自動運転の知覚スケーラビリティに関する研究の動機付けと促進を図る。
検出と追跡タスクを支援するために、一貫した追跡IDを持つ高品質で網羅的にアノテーションされたLiDARおよびカメラデータを提供する。
データセットの規模と地理的ドメインのギャップが3D知覚手法と地理間の一般化にどう影響するかを検討する。

提案手法

複数の都市（都市部/郊外）からの同期LiDARとカメラデータを用いた大規模マルチモーダルデータセットを組み立て、正確な較正と同期データを提供する。
LiDARの3Dバウンディングボックスとカメラ画像の2Dボックスを、フレームを通じて一貫した追跡IDを付与してアノテートし、追跡を支援する。
3D検出のためのAPH（heading-aware AP）を含む、専門的な指標を用いた2Dおよび3D検出・追跡ベンチマークを定義し、MOTベースの追跡指標を用いる。
最新の検出器（3D LiDARにはPointPillars、2DにはFaster R-CNN）と追跡は検出に基づくフレームワークを用いた強力なベースラインを確立し、都市間のドメインギャップ分析を追加する。
センサ fusion研究を促進するためのデータセット分析ツールとローリングシャッター対応のカメラ-LiDAR射影手法を提供する。

実験結果

リサーチクエスチョン

RQ1データセットのサイズを増やすと、3D LiDARベースの物体検出とヘディング推定の性能にどのように影響するか？
RQ2地理的ドメインギャップ（例：異なる都市間）が検出器と追跡器の性能に与える影響は何か、ドメイン適応はどのように役立つか？
RQ3共同センサ融合（LiDAR + カメラ）と正確な同期は3Dおよび2Dの知覚ベンチマークを改善できるか？
RQ4データセットの多様性（都市部対郊外、時刻、地理を通じた天候の間接的影響）は知覚モデルの一般化にどう影響するか？
RQ5このデータセットに対して2Dおよび3Dの物体検出と追跡の基準性能はどの程度確立できるか？

主な発見

このデータセットは地理間で顕著なドメインギャップを生み出し、ドメイン適応研究の機会を提供する。
ベースラインの結果は、3D LiDARと 2Dカメラの検出、追跡の両方で高い性能を示し、レンジや物体クラスによって測定可能な差異がある。
データ量が多く多様なデータセットは、特にデータ集約型モデルの知覚性能向上に明確な利益をもたらす。
センサ同期とLiDARのレンジ画像表現は、異なるドメイン間の学習や代替入力表現の有用な道を提供する。
ドメインギャップ分析は、ある都市での訓練と別の都市での評価がAPH/AP指標に大きく影響する可能性を示し、ドメイン認識型の訓練戦略の必要性を強調する。
一貫したオブジェクトIDとマルチセンサ融合による堅牢な3Dおよび2D追跡をサポートし、包括的なMOT評価を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。