[論文レビュー] SODA10M: A Large-Scale 2D Self/Semi-Supervised Object Detection Dataset for Autonomous Driving
SODA10Mは、10Mの未ラベル画像と20Kのラベル付き画像を含む大規模な2D自動運転データセットで、自己教師あり学習・半教師あり学習の物体検出手法をベンチマークし、事前学習表現を下流タスクで評価します。
Aiming at facilitating a real-world, ever-evolving and scalable autonomous driving system, we present a large-scale dataset for standardizing the evaluation of different self-supervised and semi-supervised approaches by learning from raw data, which is the first and largest dataset to date. Existing autonomous driving systems heavily rely on `perfect' visual perception models (i.e., detection) trained using extensive annotated data to ensure safety. However, it is unrealistic to elaborately label instances of all scenarios and circumstances (i.e., night, extreme weather, cities) when deploying a robust autonomous driving system. Motivated by recent advances of self-supervised and semi-supervised learning, a promising direction is to learn a robust detection model by collaboratively exploiting large-scale unlabeled data and few labeled data. Existing datasets either provide only a small amount of data or covers limited domains with full annotation, hindering the exploration of large-scale pre-trained models. Here, we release a Large-Scale 2D Self/semi-supervised Object Detection dataset for Autonomous driving, named as SODA10M, containing 10 million unlabeled images and 20K images labeled with 6 representative object categories. To improve diversity, the images are collected within 27833 driving hours under different weather conditions, periods and location scenes of 32 different cities. We provide extensive experiments and deep analyses of existing popular self/semi-supervised approaches, and give some interesting findings in autonomous driving scope. Experiments show that SODA10M can serve as a promising pre-training dataset for different self-supervised learning methods, which gives superior performance when fine-tuning with different downstream tasks (i.e., detection, semantic/instance segmentation) in autonomous driving domain. More information can refer to https://soda-2d.github.io.
研究の動機と目的
- 巨大な未ラベルデータと限られた注釈を活用して堅牢な自動運転 perception を動機付ける。
- 自己教師あり・半教師あり学習の駆動 scenarios における大規模で多様なベンチマークを提供する。
- SODA10Mでの事前学習が下流の検出・セグメンテーションタスクに与える影響を評価する。
提案手法
- 32都市にわたる10Mの未ラベル路面画像と20Kのラベル付き画像を、多様な天候・期間・場所とともに収集する。
- ラベル付きサブセットで高品質な2D境界ボックスを6つの物体カテゴリに注釈付けする。
- SODA10Mで事前学習した後、下流タスクで自己教師あり・半教師あり学習手法の範囲を評価する。
- スケール・多様性・一般化の観点からSODA10Mを既存の運転データセットと比較する。
- 昼間 vs. 夜間条件に対するドメイン適応と異なる事前学習レジimes の効果を分析する。
実験結果
リサーチクエスチョン
- RQ1大規模な自動運転データセットでの事前学習は、下流の検出とセグメンテーション性能にどのような影響を与えるか?
- RQ2ImageNet事前学習と比較して、SODA10Mのスケールと多様性は自己教師ありまたは半教師あり手法にどの程度恩恵をもたらすか?
- RQ3昼夜、天候、都市といったさまざまな条件で、SODA10Mを用いた運転関連タスクのドメイン適応効果はどの程度か?
主な発見
- SODA10Mには32都市で27,833時間の運転から収集された10Mの未ラベル画像と20Kのラベル付き画像が含まれる。
- SODA10Mは、上流前訓練データとして使用した場合、9つのタスク中7つ以上で他の自動運転前訓練データセットより下流性能を向上させる。
- 多様なドライビングシーンの密度が、特定のコントラスト学習法の有効性に影響を与える。複雑なグローバルコントラスト損失は自動運転データで効果が低い場合がある。
- 半教師あり手法(STAC、Unbiased Teacher)は偽ラベル付けのみよりも優れており、いくつかの指標で最大4.9%の改善を示す。
- SODA10Mでの事前学習は、夜間領域の半教師あり手法で顕著な利得をもたらし、多様な未ラベルデータからのドメイン適応の利点を示す。
- 未ラベルセットから生成されたフレームを使用する動画ベースの自己教師あり手法は、適切なデータ拡張と組み合わせると競合的な結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。