[論文レビュー] Data Augmentation for Object Detection via Progressive and Selective Instance-Switching
この論文は、外部データセットを用いずに訓練データを拡張するためのインスタンススイッチング(IS)と Progressive and Selective Instance-Switching(PSIS)を紹介し、MS COCO上の最先端検 detector に対して性能を改善します。
Collection of massive well-annotated samples is effective in improving object detection performance but is extremely laborious and costly. Instead of data collection and annotation, the recently proposed Cut-Paste methods [12, 15] show the potential to augment training dataset by cutting foreground objects and pasting them on proper new backgrounds. However, existing Cut-Paste methods cannot guarantee synthetic images always precisely model visual context, and all of them require external datasets. To handle above issues, this paper proposes a simple yet effective instance-switching (IS) strategy, which generates new training data by switching instances of same class from different images. Our IS naturally preserves contextual coherence in the original images while requiring no external dataset. For guiding our IS to obtain better object performance, we explore issues of instance imbalance and class importance in datasets, which frequently occur and bring adverse effect on detection performance. To this end, we propose a novel Progressive and Selective Instance-Switching (PSIS) method to augment training data for object detection. The proposed PSIS enhances instance balance by combining selective re-sampling with a class-balanced loss, and considers class importance by progressively augmenting training dataset guided by detection performance. The experiments are conducted on the challenging MS COCO benchmark, and results demonstrate our PSIS brings clear improvement over various state-of-the-art detectors (e.g., Faster R-CNN, FPN, Mask R-CNN and SNIPER), showing the superiority and generality of our PSIS. Code and models are available at: https://github.com/Hwang64/PSIS.
研究の動機と目的
- 物体検出のデータ集約性とラベリングコストの高さという問題に対処するため、内部データ拡張手法を提案する。
- IS を用いて視覚的文脈を保持しつつサンプル多様性を高める。
- 選択的リサンプリングとクラスバランス損失によってクラスの不均衡を緩和し、クラスの重要性を考慮する。
- 検出性能が低いクラスを強調するようにデータを段階的に拡張する。
- MS COCO 上の複数の検出器で PSIS の有効性を示す。
提案手法
- 形状とスケールの類似性に基づいて、同じクラスを含む2枚の画像のペアから入れ替え可能なインスタンスの候補集合を定義する。
- 2つの画像間でインスタンスをリサイズして貼り付けた後、ガウスブラーによる境界平滑化を行い文脈を保持しつつインスタンスを入れ替える。
- クラスごとのインスタンス数を揃えるための選択的リサンプリングと過剰適合を防ぐクラスバランス損失(γ 制御再重み付けを含む)でインスタンスのバランスを強化する。
- 訓練中に最も低い AP を示すクラスを特定し、それらの拡張サンプルを体系的に増やすことで段階的な拡張を導入する。
- 段階的に生成される PSIS サンプルとともに拡張データセットで検出器を反復的に訓練する。
実験結果
リサーチクエスチョン
- RQ1外部データを用いずに、インスタンススイッチングは多様でかつ文脈的に一貫した合成画像を生み出せるか?
- RQ2クラス頻度による分布のバランスとウェイト付けは検出器の性能を向上させるか?
- RQ3最も精度が低いクラスの検出を高めるために、段階的な拡張戦略は効果を持つか?
- RQ4PSIS は MS COCO 上の複数の現代的な検出器(例:Faster R-CNN、FPN、Mask R-CNN、SNIPER)とどのように統合されるか?
主な発見
- IS は外部データなしで多様性と文脈的一貫性を向上させ、元のデータセットよりも性能向上をもたらす。
- 等確率サンプルのIS(Ω_equ)は、COCO バリデーションで Ω_ori のみと比較して Faster R-CNN (ResNet-101) の mAP を約 1.1% 改善する。
- Ω_uni と Ω_ori、さらにはクラスバランス損失 ℓ_CB を併用した一様拡張で mAP を 29.0% に増加させる(基準は 27.3%)。
- 低 AP クラスを対象とする段階的 IS は PSIS と組み合わせた場合さらに約 0.7% の mAP 増加をもたらす。
- PSIS で拡張したデータは COCO 上の複数の検出器(FPN、Mask R-CNN、SNIPER)を一貫して改善し、各指標で約 0.6% から 1.3% の利得をもたらす。
- 最終的な PSIS データセット(Ω_PSIS)は約 283k 枚の画像を含み、アーキテクチャ横断で測定可能な改善を提供し、効果と汎用性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。