QUICK REVIEW

[論文レビュー] Object Detection Using Deep CNNs Trained on Synthetic Images

Param Rajpura, Hristo Bojinov|arXiv (Cornell University)|Jun 21, 2017

Advanced Neural Network Applications参考文献 30被引用数 44

ひとこと要約

本稿では、雑然とした冷蔵庫内の包装食品検出を目的として、合成3Dレンダリング画像のみで深層畳み込みニューラルネットワーク（CNN）オブジェクト検出器を訓練する手法を提案する。わずか4,000枚の合成画像のみを用いても、平均平均精度（mAP）は24を達成するが、400枚の実画像で微調整することで12%向上（mAP 27）し、合成データから実世界データへの効果的な転移学習が示された。

ABSTRACT

The need for large annotated image datasets for training Convolutional Neural Networks (CNNs) has been a significant impediment for their adoption in computer vision applications. We show that with transfer learning an effective object detector can be trained almost entirely on synthetically rendered datasets. We apply this strategy for detecting pack- aged food products clustered in refrigerator scenes. Our CNN trained only with 4000 synthetic images achieves mean average precision (mAP) of 24 on a test set with 55 distinct products as objects of interest and 17 distractor objects. A further increase of 12% in the mAP is obtained by adding only 400 real images to these 4000 synthetic images in the training set. A high degree of photorealism in the synthetic images was not essential in achieving this performance. We analyze factors like training data set size and 3D model dictionary size for their influence on detection performance. Additionally, training strategies like fine-tuning with selected layers and early stopping which affect transfer learning from synthetic scenes to real scenes are explored. Training CNNs with synthetic datasets is a novel application of high-performance computing and a promising approach for object detection applications in domains where there is a dearth of large annotated image data.

研究の動機と目的

オブジェクト検出のためのCNN訓練において、特に冷蔵庫内の包装食品など高内的分散を示す状況において、アノテート済み実世界データセットの限界を解決すること。
複雑でごちゃついたシーンにおいて、実データに代わる代替手段として合成データセットが、頑健なオブジェクト検出器の訓練に有効であるかを調査すること。
合成データの品質、データの多様性、および訓練戦略が、合成データから実画像への転移学習性能に与える影響を評価すること。
モデルアーキテクチャ、微調整戦略、早期停止などのハイパーパrameterを探索し、検出性能を最適化すること。

提案手法

200種類の異なる包装食品製品の3Dモデルから生成された4,000枚の合成レンダリング画像を用いて、CNNオブジェクト検出器を訓練する。
ImageNetで事前学習されたモデルを出発点として、実冷蔵庫シーンのデータでネットワークを微調整することで、転移学習を適用する。
訓練用辞書に含める3Dモデルの数（10～400）を系統的に変化させ、モデル多様性が検出性能に与える影響を評価する。
層ごとの微調整を実装し、徐々に深い層をアンフリークして、合成データから実データへの特徴転送を最適化する。
検証用mAPに基づく早期停止を実施し、合成データへの過学習を防ぐ。訓練は25～50エポックにわたり監視される。
55個の関心オブジェクトと17個の干渉オブジェクトを含む、50件のクラウドソーシングによる冷蔵庫シーンのホールドアウトテストセットで性能を評価する。

実験結果

リサーチクエスチョン

RQ1高内的分散を示す実世界のオブジェクト検出タスク（冷蔵庫内の包装食品など）において、合成画像のみでトレーニングされた深層CNNオブジェクト検出器が、妥当な性能を達成できるか？
RQ2合成データで事前学習したモデルに対して、わずか400枚の実画像で微調整を加えることで、検出性能がどのように向上するか？
RQ3訓練用辞書に含まれる異なる3Dモデルの数（モデル多様性）が、実シーンにおける検出器の汎化能力に与える影響は何か？
RQ4部分的層アンフリークと全層微調整のどちらの微調整戦略が、合成データから実画像への転移性能を最も高めるか？
RQ5早期停止は合成データへの過学習を防ぎ、実世界テストデータへの汎化性能を向上させるか？

主な発見

4,000枚の合成画像のみでトレーニングされたCNNは、55種類の異なる食品製品を含む50件の実世界冷蔵庫シーンテストセットで、平均平均精度（mAP）24を達成した。
同じモデルを400枚の実画像で微調整することで、mAPが12%向上し、27に上昇した。これは、合成データから実世界データへの高い転送性を示している。
200種類の異なる3Dモデルが辞書に含まれた際に性能がピークに達し、400モデルに増加するとわずかに低下した。これは、ある多様性の閾値を超えると収益が減少する傾向があることを示している。
GoogLeNetアーキテクチャのすべてのインセプションモジュールを微調整した場合が最も優れた転移性能を示し、深層部の適応がドメイン一般化に不可欠であることを示している。
50エポックを超えて訓練を続けると、検証セットでのmAPが低下したため、合成データへの過学習が生じた。これは、早期停止の重要性を示している。
干渉オブジェクトとして野菜が誤検出（偽陽性）として観測された。これは、ImageNet事前学習が、合成学習データに存在しない特定の視覚的パターンにモデルをバイアスさせている可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。