Skip to main content
QUICK REVIEW

[論文レビュー] An Annotation Saved is an Annotation Earned: Using Fully Synthetic Training for Object Instance Detection

Stefan Hinterstoißer, Olivier Pauly|arXiv (Cornell University)|Feb 26, 2019
Advanced Neural Network Applications参考文献 31被引用数 29
ひとこと要約

本論文は、完全にドメインランダム化された3Dバックグラウンドモデルをレンダリングし、全般的な進捗を保つカリキュラム学習戦略を用いて、前景オブジェクトがすべてのポーズや条件下でバランスよく段階的に露出されるように、オブジェクトインスタンス検出の完全合成トレーニングパイプラインを提案する。この手法は、実世界のベンチマークで最先端の性能を達成し、実データのみでトレーモンされたモデルを上回る。

ABSTRACT

Deep learning methods typically require vast amounts of training data to reach their full potential. While some publicly available datasets exists, domain specific data always needs to be collected and manually labeled, an expensive, time consuming and error prone process. Training with synthetic data is therefore very lucrative, as dataset creation and labeling comes for free. We propose a novel method for creating purely synthetic training data for object detection. We leverage a large dataset of 3D background models and densely render them using full domain randomization. This yields background images with realistic shapes and texture on top of which we render the objects of interest. During training, the data generation process follows a curriculum strategy guaranteeing that all foreground models are presented to the network equally under all possible poses and conditions with increasing complexity. As a result, we entirely control the underlying statistics and we create optimal training samples at every stage of training. Using a set of 64 retail objects, we demonstrate that our simple approach enables the training of detectors that outperform models trained with real data on a challenging evaluation dataset.

研究の動機と目的

  • オブジェクト検出のための現実世界トレーニングデータの収集およびアノテーションにかかる高コストとスケーラビリティの問題に対処すること。
  • 実際のバックグラウンドデータに依存せずに、合成画像と実画像のドメインギャップを埋めること。
  • 実世界の条件に耐性のある、スケーラブルな完全合成データ生成パイプラインを開発すること。
  • 完全に合成データのみでトレーニングされたモデルが、実データでトレーニングされたモデルを上回ることを実証すること。

提案手法

  • 完全ドメインランダム化でレンダリングされた多数の3Dバックグラウンドモデルのデータセットを活用し、現実的でごちゃついた背景を生成する。
  • トレーニングデータの複雑さを段階的に増加させるカリキュラム学習戦略を用い、すべての前景オブジェクトがすべてのポーズや条件下で均等に露出されるように保証する。
  • ランダムな照明、ぼかし、ノイズを用いて3D前景オブジェクトを完全に合成された背景にレンダリングし、現実性を向上させる。
  • ドメインランダム化の一部として、ランダムな焦点距離、光の色、画像ぼかしを適用し、モデルの耐性を向上させる。
  • 背景画像全体が合成されたごみで埋められ、部分的な実際の背景が含まれないことを保証する。
  • 実データを一切使用せず、この合成データのみでオブジェクト検出器(例:Faster R-CNN)をトレーニングする。

実験結果

リサーチクエスチョン

  • RQ1完全に合成されたトレーニングパイプラインは、実データでトレーニングされたモデルを上回ることができるか?
  • RQ2合成データ生成におけるカリキュラム学習と単純なランダムポーズサンプリングの比較では、どちらが検出性能に優れるか?
  • RQ3背景の構成(完全に合成されたもの vs. 実際と合成されたもの)が検出性能に与える影響は何か?
  • RQ4レンダリングパイプラインのどの要素(例:ぼかし、照明)がモデルの一般化性能に最も顕著に影響を与えるか?
  • RQ5より大きな数のバックグラウンドオブジェクトを使用することで、モデルのクラッター耐性が向上するか?

主な発見

  • 完全に合成されたデータでトレーニングされたモデルが、挑戦的な実世界評価ベンチマークで実データでトレーニングされたモデルを上回る性能を示した。
  • カリキュラム学習戦略は、初心者段階のトレーニングにおいて、単純なランダムポーズサンプリングに比べて検出性能を顕著に向上させた。
  • 完全に合成されたごみだらけの背景を使用した場合、実画像が混在している部分的な実際の背景よりも高い性能が得られた。
  • ぼかし処理とランダムな光の色が、パイプライン内で最も影響力のある画像拡張ステップであった。一方、焦点距離の変動は最小限の影響しか与えなかった。
  • 1枚の画像に含まれる前景オブジェクトの数を増やすことで検出性能が向上し、オブジェクト数が多いほど一般化性能が向上した。
  • 最適なバックグラウンドオブジェクトのスケールは、前景オブジェクトと同等またはそれ以上であることが判明した。スケールが小さいと前景オブジェクトが識別しやすくなり、耐性が低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。