QUICK REVIEW

[論文レビュー] A2D2: Audi Autonomous Driving Dataset

Jakob Geyer, Yohannes Kassahun|arXiv (Cornell University)|Apr 14, 2020

Remote Sensing and LiDAR Applications参考文献 28被引用数 265

ひとこと要約

A2D2 は、商用利用可能で完全に同期されたマルチモーダルデータセット（6 カメラ、5 LiDAR）を提供し、360度カバレッジ、セマンティック/インスタンス分割と3Dバウンディングボックス、さらに自動運転研究のための車両バスデータを CC BY-ND 4.0 の下で提供します。ドイツのラベル付きおよびラベルなしのシーケンスとアクセスのためのチュートリアルを含みます。

ABSTRACT

Research in machine learning, mobile robotics, and autonomous driving is accelerated by the availability of high quality annotated data. To this end, we release the Audi Autonomous Driving Dataset (A2D2). Our dataset consists of simultaneously recorded images and 3D point clouds, together with 3D bounding boxes, semantic segmentation, instance segmentation, and data extracted from the automotive bus. Our sensor suite consists of six cameras and five LiDAR units, providing full 360 degree coverage. The recorded data is time synchronized and mutually registered. Annotations are for non-sequential frames: 41,277 frames with semantic segmentation image and point cloud labels, of which 12,497 frames also have 3D bounding box annotations for objects within the field of view of the front camera. In addition, we provide 392,556 sequential frames of unannotated sensor data for recordings in three cities in the south of Germany. These sequences contain several loops. Faces and vehicle number plates are blurred due to GDPR legislation and to preserve anonymity. A2D2 is made available under the CC BY-ND 4.0 license, permitting commercial use subject to the terms of the license. Data and further information are available at http://www.a2d2.audi.

研究の動機と目的

商用利用可能で豊富に注釈されたデータセットを提供することで、自動運転研究を促進する。
全周囲のカメラと LiDAR データをグローバルフレームに同期して提供する。
エンドツーエンドや強化学習研究を可能にする大規模な車両バスデータを含む。
コミュニティの採用を容易にするための匿名化データとチュートリアルを提供する。
モダリティを横断する知覚アルゴリズムの比較のためのベンチマークとチャレンジを可能にする。

提案手法

六つのカメラと五つの Velodyne VLP-16 LiDAR を搭載した Audi Q7 e-tron でデータを収集。
共通のグローバル参照フレームへの厳密なセンサ較正と登録。
38 クラスにわたる41,277フレームのセマンティックおよびインスタンス分割のアノテーション。
フロントカメラ FOV 内の12,497フレームに対して3Dバウンディングボックスを提供。
自己教師あり学習や SLAM 研究のための392,556の未アノテーションシーケンスを公開。
ResNet-101エンコーダーとPSP-Netデコーダーを用いたベースラインセマンティック分割実験。

実験結果

リサーチクエスチョン

RQ1マルチモーダルで周囲センサーを用いた自動車データセットは、知覚と SLAM アルゴリズムの開発をどのようにサポートできるか？
RQ2事前学習済みウェイトと匿名化を用いることが A2D2 のセマンティック分割性能に与える影響はどの程度か？
RQ3車両バスデータの含有は、物体検出を超えるより広い研究（例：エンドツーエンド学習や強化学習）を可能にするか？

主な発見

Architecture/Training	Mean IoU
Baseline (ResNet-101 + PSP-Net)	71.01%
With pre-trained weights (ResNet-50 + PSP-Net)	68.40%
Without pre-trained weights (ResNet-50 + PSP-Net)	65.31%
With anonymized images (ResNet-101 + PSP-Net)	70.94%

データセットには前方カメラの FOV 内で41,277のセマンティック/インスタンスラベル付き画像と12,497フレームの3Dバウンディングボックスが含まれる。
5つの LiDAR と6つのカメラにより、時間同期済み・登録済みデータで完全な360度カバレッジを提供。
セマンティック分割モデルは18の前景クラスで平均 IoU = 71.01% を達成（ベースライン ResNet-101 + PSP-Net）。
ImageNet 事前学習ウェイトを使用すると平均 IoU は 71.01%（ベースライン）に改善され、代替案（ResNet-50 + PSP-Net で 68.40%、事前学習なしで 65.31%）と比較して高い。
匿名化（顔/ナンバープレートのぼかし）は、非匿名化のベースライン（71.01%）と比べて平均 IoU にほとんど影響を与えない（70.94%）。
未アノテーションシーケンスと車両バスデータを通じてエンドツーエンドおよび自己監視学習をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。