[論文レビュー] One Million Scenes for Autonomous Driving: ONCE Dataset
この論文は ONCE データセットを提案する。1M の LiDAR シーンと 7M 枚の画像を用いた 3D 物体検出、および ONCE を用いた 3D 検出の自己-supervised / 半教師あり / 教師なし学習ベンチマークを提供する。さらに、既存データセットと比較したデータ品質、多様性、ドメイン適応の潜在性を分析する。
Current perception models in autonomous driving have become notorious for greatly relying on a mass of annotated data to cover unseen cases and address the long-tail problem. On the other hand, learning from unlabeled large-scale collected data and incrementally self-training powerful recognition models have received increasing attention and may become the solutions of next-generation industry-level powerful and robust perception models in autonomous driving. However, the research community generally suffered from data inadequacy of those essential real-world scene data, which hampers the future exploration of fully/semi/self-supervised methods for 3D perception. In this paper, we introduce the ONCE (One millioN sCenEs) dataset for 3D object detection in the autonomous driving scenario. The ONCE dataset consists of 1 million LiDAR scenes and 7 million corresponding camera images. The data is selected from 144 driving hours, which is 20x longer than the largest 3D autonomous driving dataset available (e.g. nuScenes and Waymo), and it is collected across a range of different areas, periods and weather conditions. To facilitate future research on exploiting unlabeled data for 3D detection, we additionally provide a benchmark in which we reproduce and evaluate a variety of self-supervised and semi-supervised methods on the ONCE dataset. We conduct extensive analyses on those methods and provide valuable observations on their performance related to the scale of used data. Data, code, and more information are available at https://once-for-auto-driving.github.io/index.html.
研究の動機と目的
- 自動運転におけるデータの不十分さを解消するために、大規模で多様な 3D シーンデータセットを提供する。
- ラベルなしデータの探索を可能にする自己-supervised / 半教師あり / 教師なし学習ベンチマークを用いた 3D 検出。
- 3D 認識におけるデータ品質、多様性、一般化の分野横断的研究を促進する。
提案手法
- LiDAR とカメラデータを収集・ダウンサンプリングし、144 時間の走行で 1M の 3D シーンと 7M 枚の画像を作成する。
- 5 カテゴリの 3D ボックスで 16k シーンを注釈し、画像の 2D ボックスへ投影する。
- すべてのシーンに天候、時間、地域ラベルを提供し、ラベルなし大規模プールを含む訓練/検証/テストに分割する。
- ONCE で統一設定の下、3D デテクター(単一モダリティおよび複数モダリティ)をベンチマークする。
- 自己教師あり、半教師あり、教師なしのドメイン適応法を 3D 検出で再現・評価する。
- 事前学習の効果と分布比較を通じてデータ品質と多様性を分析する。
実験結果
リサーチクエスチョン
- RQ1ONCE での事前学習が nuScenes および Waymo と比較して後続の 3D 検出性能にどのような影響を与えるか。
- RQ2自己-supervised / semi-supervised 法を用いたラベルなしデータの利用が ONCE の 3D 物体検出に及ぼす影響はどのようか。
- RQ3データ規模の変化に対して、さまざまな自己-supervised および半教師あり戦略は 3D 検出でどのように性能へ影響するか。
- RQ4ONCE を含むクロスデータセットの 3D 検出を改善するような教師なしドメイン適応は可能か。
- RQ5データの多様性(天候、時間、地域)が自動運転シーンの検出性能に与える役割は何か。
主な発見
- ONCE は事前学習の効果が高く、ONCE で事前学習したモデルは KITTI でファインチューニングした場合 nuScenes/Waymo の事前学習と比較して3D mAP が高い。
- ラベルなし ONCE データを使用した自己-supervised / 半教師あり法は 3D 検出を改善し、ラベルなしデータが多いほど性能向上が大きい。
- クラスタリングベースの自己-supervised 法(SwAV、DeepCluster)は、ONCE の大規模設定で対照的な方法(BYOL、PointContrast)より一般に優れている。
- 半教師あり法(Mean Teacher、SESS、3DIoUMatch)は顕著な利得をもたらし、Mean Teacher は大規模なラベルなしデータで最大 59.99% の mAP に到達する。
- ONCE から他データセットへの教師なしドメイン適応は Source Only ベースラインより意味のある改善を示すが、Oracle の性能にはまだギャップが残る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。