[論文レビュー] How much real data do we actually need: Analyzing object detection performance using synthetic and real data
本論文は、自動運転におけるSSD-MobileNetの物体検出において、合成データが実データを代替または補完できる方法を分析し、限られた実データで性能を最大化するための訓練戦略(混合訓練とファインチューニング)を提案する。
In recent years, deep learning models have resulted in a huge amount of progress in various areas, including computer vision. By nature, the supervised training of deep models requires a large amount of data to be available. This ideal case is usually not tractable as the data annotation is a tremendously exhausting and costly task to perform. An alternative is to use synthetic data. In this paper, we take a comprehensive look into the effects of replacing real data with synthetic data. We further analyze the effects of having a limited amount of real data. We use multiple synthetic and real datasets along with a simulation tool to create large amounts of cheaply annotated synthetic data. We analyze the domain similarity of each of these datasets. We provide insights about designing a methodological procedure for training deep networks using these datasets.
研究の動機と目的
- 実データを減らすことが物体検出性能に与える影響を評価する。
- データセットの分布/多様性とモデル精度の関係を検討する。
- 合成データと実データの混合訓練と、実データによるファインチューニングを比較評価する。
- 大規模な合成データと小規模な実データセットを用いた訓練の手順指針を提案する。
- 複数の合成データセットを組み合わせることが実データの一般化に与える影響を調査する。
提案手法
- 車両クラスと人物クラスを横断する実データと合成データの混合データセットでSSD-MobileNetを訓練する。
- 実データの割合(100%、10%、5%、2.5%)と合成データ対実データの比率を体系的に変化させる。
- IoU閾値0.5〜0.95を0.05刻みで用いた精度/再現率で評価する。
- 合成データで事前学習を行い、実データでファインチューニングする転移学習を実施する。
- 混合訓練とファインチューニングおよびデータセットの組み合わせを比較する。
実験結果
リサーチクエスチョン
- RQ1実訓練データを削減すると、データセット間で物体検出性能にどのような影響が生じるか。
- RQ2合成データセットは、実データへ一般化するモデルを訓練する能力にどのような差があるか。
- RQ3同等の実データ量であれば、合成データと実データの混合は実データのみの訓練より性能が向上するか。
- RQ4合成データでの事前訓練後に実データでファインチューニングする方が、混合訓練より効果的か。
- RQ5複数の合成データセットを組み合わせることが実データの一般化に与える影響は何か。
主な発見
- 実データを大幅に削減すると、車両検出と人物検出の精度と再現率がともに低下する。
- 人物検出は変形性と多様性のため、データ削減に対して車両検出より敏感である。
- 合成データを用いた混合訓練は、実データの一部のみを用いるより性能を向上させるが、合成事前訓練後のファインチューニングは特に人物クラスでより大きな利得をもたらす。
- 転移学習(合成前訓練後に実データでファインチューニング)は、混合訓練より安定した利得とより良い再現率を提供する。
- 複数の合成データセットを組み合わせることは、通常、単一の合成ソースより結果を改善するが、BDDのような一部の実データセットでは例外がある。
- 7D(純粋な合成)はファインチューニング後には実データとよく一致する一方、CARLAは環境・カメラモデルの精度が低いため低性能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。