QUICK REVIEW

[논문 리뷰] ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models

Jingyuan Zhu, Shiyu Li|arXiv (Cornell University)|2024. 05. 24.

Machine Learning and Data Classification인용 수 5

한 줄 요약

ODGEN은 확산 모델을 도메인별 데이터에 미세조정하고 객체별 프롬프트 및 합성 객체 패치를 사용하여 바운딩 박스 조건의 고품질 이미지를 생성하여 탐지기 훈련 성능을 이전의 제어 가능한 생성 방법보다 향상시킵니다.

ABSTRACT

Modern diffusion-based image generative models have made significant progress and become promising to enrich training data for the object detection task. However, the generation quality and the controllability for complex scenes containing multi-class objects and dense objects with occlusions remain limited. This paper presents ODGEN, a novel method to generate high-quality images conditioned on bounding boxes, thereby facilitating data synthesis for object detection. Given a domain-specific object detection dataset, we first fine-tune a pre-trained diffusion model on both cropped foreground objects and entire images to fit target distributions. Then we propose to control the diffusion model using synthesized visual prompts with spatial constraints and object-wise textual descriptions. ODGEN exhibits robustness in handling complex scenes and specific domains. Further, we design a dataset synthesis pipeline to evaluate ODGEN on 7 domain-specific benchmarks to demonstrate its effectiveness. Adding training data generated by ODGEN improves up to 25.3% mAP@.50:.95 with object detectors like YOLOv5 and YOLOv7, outperforming prior controllable generative methods. In addition, we design an evaluation protocol based on COCO-2014 to validate ODGEN in general domains and observe an advantage up to 5.6% in mAP@.50:.95 against existing methods.

연구 동기 및 목표

도메인별 객체 탐지가 드물거나 전문화된 경우 데이터 증가를 개선하기 위한 동기를 부여한다.
대상 도메인 분포에 맞추기 위해 풀스캔 이미지와 잘라낸 객체 패치를 모두 사용하여 확산 모델 미세조정 전략을 개발한다.
개념 누출을 방지하기 위해 텍스트와 시각 프롬프트를 분리하여 객체별 조건부를 도입하고 다중 객체를 제어한다.
탐지기 학습에 효과적인 데이터를 만들기 위해 가짜 레이블을 생성하고 걸러내는 데이터셋 합성 파이프라인을 제안한다.
도메인 특화 및 일반 도메인 벤치마크 전반에서 탐지 성능과 충실도를 향상시키는 효과를 입증한다.

제안 방법

대상 도메인 분포에 맞추기 위해 전체 이미지와 잘려진 전경 패치를 모두 대상으로 사전 학습된 확산 모델을 미세조정한다.
간섭을 피하기 위해 각 객체 클래스를 고정된 CLIP 텍스트 인코더로 별도로 인코딩한 후 임베딩을 스택하고 학습 가능한 텍스트 임베딩 인코더로 처리한다.
전경 패치를 합성하고 바운딩 박스에 따라 비어 있는 캔버스에 붙여 ControlNet의 시각적 조건으로 사용한다.
가짜 라벨 영역에 합성 객체가 포함되었는지 확인하기 위해 전경/배경 구분기를 학습하고 유효하지 않은 라벨을 걸러낸다.
훈련 세트에서 객체 분포를 추정하고, 가짜 라벨을 샘플링하며, 이미지를 합성하고 손상된 라벨을 필터링하는 데이터셋 합성 파이프라인을 구성하여 탐지기 학습을 개선한다.

실험 결과

연구 질문

RQ1바운딩 박스로 조건화된 고충실도 도메인 특이적 이미지를 객체 탐지를 위해 어떻게 생성할 수 있는가?
RQ2객체별 조건부를 텍스트와 시각 프롬프트로 분리하면 개념 누출을 줄이고 다중 객체 장면 합성을 개선할 수 있는가?
RQ3전체 장면과 전경 자르고기 모두를 사용한 확산 모델 미세조정이 탐지 성능에 어떤 영향을 미치는가?
RQ4ODGEN이 생성한 합성 데이터가 도메인 특화 및 일반 도메인에서 기존 제어 가능한 생성 방법보다 탐지 성능을 더 개선하는가?
RQ5합성 데이터를 탐지기용으로 사용할 때 충실도(FID)와 학습성(mAP)을 가장 잘 검증하는 평가 프로토콜은 무엇인가?

주요 결과

데이터셋	Baseline (mAP YOLOv5s/YOLOv7)	ReCo (mAP)	GLIGEN (mAP)	ControlNet (mAP)	GeoDiffusion (mAP)	ODGEN (mAP)
Apex Game	38.3 / 47.2	25.0 / 31.5	24.8 / 32.5	33.8 / 42.7	29.2 / 35.8	39.9 / 52.6
Robomaster	27.2 / 26.5	18.2 / 27.9	19.1 / 25.0	24.4 / 32.9	18.2 / 22.6	39.6 / 34.7
MRI Image	37.6 / 27.4	42.7 / 38.3	32.3 / 25.9	44.7 / 37.2	42.0 / 38.9	46.1 / 41.5
Cotton	16.7 / 20.5	29.3 / 37.5	28.0 / 39.0	22.6 / 35.1	30.2 / 36.0	42.0 / 43.2
Road Traffic	35.3 / 41.0	22.8 / 29.3	22.2 / 29.5	22.1 / 30.5	17.2 / 29.4	39.2 / 43.8
Aquarium	30.0 / 29.6	23.8 / 34.3	24.1 / 32.2	18.2 / 25.6	21.6 / 30.9	32.2 / 38.5
Underwater	16.7 / 19.4	13.7 / 15.8	14.9 / 18.5	15.5 / 17.8	13.8 / 17.2	19.2 / 22.0

ODGEN은 일곱 개의 도메인별 데이터 세트 전반에 걸쳐 기존의 제어 가능한 방법들보다 더 낮은 FID를 달성한다.
ODGEN으로 합성된 데이터를 추가하면 RF7 데이터 세트에서 YOLOv5s/YOLOv7의 mAP@0.5:0.95가 최대 25.3pp 개선된다.
COCO 기반의 일반 도메인 평가에서 ODGEN은 기존 방법들에 비해 mAP@0.5:0.95에서 최대 5.6%의 이점을 보인다.
객체별 텍스트 및 이미지 목록은 간섭 및 가시성 문제를 완화하고 충실도와 배치 정확도를 향상시킨다.
전경 영역 재가중치 부여(감마) 및 손상된 라벨 필터링은 충실도와 탐지 성능의 향상에 기여한다.
COCO 및 RF7 벤치마크에서 ODGEN은 충실도(FID)와 학습성(mAP) 모두에서 ReCo, GLIGEN, ControlNet, GeoDiffusion, MIGC를 상회한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.