Skip to main content
QUICK REVIEW

[論文レビュー] ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models

Jingyuan Zhu, Shiyu Li|arXiv (Cornell University)|May 24, 2024
Machine Learning and Data Classification被引用数 5
ひとこと要約

ODGEN は拡散モデルをドメイン固有データで微調整し、オブジェクトごとのプロンプトと合成オブジェクトパッチを用いて高品質で境界ボックスで制約された画像を生成し、検出器の訓練性能を従来の制御生成法より向上させる。

ABSTRACT

Modern diffusion-based image generative models have made significant progress and become promising to enrich training data for the object detection task. However, the generation quality and the controllability for complex scenes containing multi-class objects and dense objects with occlusions remain limited. This paper presents ODGEN, a novel method to generate high-quality images conditioned on bounding boxes, thereby facilitating data synthesis for object detection. Given a domain-specific object detection dataset, we first fine-tune a pre-trained diffusion model on both cropped foreground objects and entire images to fit target distributions. Then we propose to control the diffusion model using synthesized visual prompts with spatial constraints and object-wise textual descriptions. ODGEN exhibits robustness in handling complex scenes and specific domains. Further, we design a dataset synthesis pipeline to evaluate ODGEN on 7 domain-specific benchmarks to demonstrate its effectiveness. Adding training data generated by ODGEN improves up to 25.3% mAP@.50:.95 with object detectors like YOLOv5 and YOLOv7, outperforming prior controllable generative methods. In addition, we design an evaluation protocol based on COCO-2014 to validate ODGEN in general domains and observe an advantage up to 5.6% in mAP@.50:.95 against existing methods.

研究の動機と目的

  • データが不足しているまたは専門的なドメイン固有の物体検出のためのデータ拡張の改善を動機づける。
  • 完全なシーンと切り抜きオブジェクトパッチの両方を使用した拡散モデル微調整戦略を開発し、ドメイン特性をよりよく捉える。
  • 概念の出血を避けつつ複数のオブジェクトを制御するために、別個のテキストとビジュアルプロンプトを用いたオブジェクト単位の条件付けを導入する。
  • 検出器の訓練データを作成するために疑似ラベルを生成・フィルタリングするデータセット合成パイプラインを提案する。
  • ドメイン特化および一般ドメインのベンチマーク全体で検出性能と信頼性の向上を実証する。

提案手法

  • ターゲットドメイン分布に整合するよう、フル画像と前景パッチの両方で事前学習済み拡散モデルを微調整する。
  • 干渉を避けるため、各オブジェクトクラスを凍結済みの CLIP テキストエンコーダで個別にエンコードし、埋め込みを積み上げて訓練可能なテキスト埋め込みエンコーダで処理する。
  • 境界ボックスに従って合成前景パッチを生成し、空のキャンバスに貼り付けて視覚条件として ControlNet に使用する。
  • 前景/背景識別器を訓練して疑似ラベリング領域に合成オブジェクトが含まれることを検証し、無効なラベルを除去する。
  • トレーニングセットからオブジェクト分布を推定し、疑似ラベルをサンプリングし、画像を合成し、破損ラベルをフィルタリングして検出器訓練を改善するデータセット合成パイプラインを組み立てる。

実験結果

リサーチクエスチョン

  • RQ1境界ボックス条件付けされたドメイン特有の高忠実度画像を生成して物体検出を行う方法は?
  • RQ2別個のテキストとビジュアルプロンプトによるオブジェクト単位の条件付けは概念の出血を低減し、複数オブジェクトのシーン合成の改善につながるか?
  • RQ3完全シーンと前景クロップの両方を用いた拡散モデル微調整が検出性能に与える影響は?
  • RQ4ODGEN によって生成された合成データは、ドメイン特化および一般ドメインのいずれで従来の制御生成法より検出性能を改善するか?
  • RQ5合成データを用いた検出器の忠実度 (FID) と訓練性 (mAP) を最も適切に評価する評価プロトコルは?

主な発見

データセットBaseline (mAP YOLOv5s/YOLOv7)ReCo (mAP)GLIGEN (mAP)ControlNet (mAP)GeoDiffusion (mAP)ODGEN (mAP)
Apex Game38.3 / 47.225.0 / 31.524.8 / 32.533.8 / 42.729.2 / 35.839.9 / 52.6
Robomaster27.2 / 26.518.2 / 27.919.1 / 25.024.4 / 32.918.2 / 22.639.6 / 34.7
MRI Image37.6 / 27.442.7 / 38.332.3 / 25.944.7 / 37.242.0 / 38.946.1 / 41.5
Cotton16.7 / 20.529.3 / 37.528.0 / 39.022.6 / 35.130.2 / 36.042.0 / 43.2
Road Traffic35.3 / 41.022.8 / 29.322.2 / 29.522.1 / 30.517.2 / 29.439.2 / 43.8
Aquarium30.0 / 29.623.8 / 34.324.1 / 32.218.2 / 25.621.6 / 30.932.2 / 38.5
Underwater16.7 / 19.413.7 / 15.814.9 / 18.515.5 / 17.813.8 / 17.219.2 / 22.0
  • ODGEN は従来の制御可能な手法よりも、7つのドメイン特有データセットで低い FID を達成。
  • ODGEN 合成データを追加することで RF7 データセットで YOLOv5s/YOLOv7 の mAP@0.5:0.95 が最大で 25.3 ポイント改善。
  • COCO ベースの一般ドメイン評価では、既存手法に対して最大で mAP@0.5:0.95 が 5.6%の優位性を示す。
  • オブジェクト単位のテキストと画像リストは干渉と遮蔽の問題を緩和し、忠実度とレイアウト精度を向上。
  • 前景領域の再重み付け(ガンマ)と破損ラベルフィルタリングが忠実度と検出性能の向上に寄与。
  • ODGEN は COCO および RF7 ベンチマークで忠実度(FID)と訓練性(mAP)の両方で ReCo、GLIGEN、ControlNet、GeoDiffusion、MIGC を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。