QUICK REVIEW

[논문 리뷰] Effective Data Augmentation With Diffusion Models

Brandon Trabucco, Kyle G. Doherty|arXiv (Cornell University)|2023. 02. 07.

Domain Adaptation and Few-Shot Learning인용 수 81

한 줄 요약

논문은 소수 샷 분류를 위한 DA-Fusion을 소개하는데, 이는 실제 이미지를 의미적으로 편집하여 다양한 과제 관련 합성 데이터를 생성하고, 사전 학습 모델의 누출 문제를 해결하는 확산 모델 기반 데이터 증강 방법이다.

ABSTRACT

Data augmentation is one of the most prevalent tools in deep learning, underpinning many recent advances, including those from classification, generative models, and representation learning. The standard approach to data augmentation combines simple transformations like rotations and flips to generate new images from existing ones. However, these new images lack diversity along key semantic axes present in the data. Current augmentations cannot alter the high-level semantic attributes, such as animal species present in a scene, to enhance the diversity of data. We address the lack of diversity in data augmentation with image-to-image transformations parameterized by pre-trained text-to-image diffusion models. Our method edits images to change their semantics using an off-the-shelf diffusion model, and generalizes to novel visual concepts from a few labelled examples. We evaluate our approach on few-shot image classification tasks, and on a real-world weed recognition task, and observe an improvement in accuracy in tested domains.

연구 동기 및 목표

동기: 표준 증강은 의미 다양성이 부족하고 고수준 속성을 바꿀 수 없다.
목표: 모든 이미지에 적용 가능하고 소수 샷 분류를 개선하는 유연한, 즉시 사용할 수 있는 확산 기반 증강을 개발한다.
목적: 실제 데이터와 합성 데이터의 균형을 맞추고 최소한의 도메인 특화 조정으로 보지 못한 개념에 일반화하는 것.

제안 방법

텍스트-투-이미지 확산 모델을 사용하여 모델의 텍스트 인코더에 삽입된 새로운 임베딩을 통해 이미지를 의미적으로 편집한다.
소수의 라벨링된 예제에 대해 Textual Inversion으로 새로운 임베딩을 학습하여 확산 모델을 보지 못한 개념에 적응시킨다.
학습된 임베딩으로 안내되는 합성 이미지를 생성하기 위해 실제 이미지를 확산 프로세스(SDEdit)에 접합한다.
실제 데이터와 합성 데이터를 학습 배치에서 확률 매개변수로 혼합하여 균형을 맞춘다.
다양성을 높이기 위해 이미지 스플라이싱 동안 삽입 시점 t0를 변화시켜 증강 강도를 무작위로 도입한다.
누출 방지 전략 구현: 모델 중심(모델 가중치에서 클래스 개념 제거)과 데이터 중심(프롬프트에서 클래스 이름 생략).

실험 결과

연구 질문

RQ1확산 기반의 의미적으로 편집된 증강이 확산 모델 어휘 밖의 개념이 포함된 데이터셋에서 소수 샷 분류를 개선할 수 있는가?
RQ2누출 방지 전략이 확산 기반 데이터 증강의 효과성에 어떤 영향을 미치는가?
RQ3증강 강도의 무작위성이 성능 향상에 기여하는가, 그리고 실제/합성 데이터 균형에 대해 이 방법의 강건성은 어떤가?
RQ4해당 방법이 여러 도메인(Pascal VOC, COCO, leafy spurge weed 데이터셋)에서 효과적인가?

주요 결과

DA-Fusion은 세 가지 데이터셋에서 소수 샷 분류 정확도를 향상시키며, 표준 증강 기준보다 최대 약 10% 포인트의 이득이 있다.
모델 중심 누출 방지는 여전히 이점을 보이며 Pascal과 COCO 도메인에서 최대 +5% 포인트까지 증가를 보인다.
데이터 중심 누출 방지는 더 큰 이득을 주며 최대 약 +10% 포인트까지 상승하고, 모델 프라이어에 의존하거나 상호 작용함을 시사한다.
증강 강도 무작위화(t0 변경)가 고정 강도보다 지속적으로 성능을 향상시킨다.
DA-Fusion은 실제 데이터와 합성 데이터 간의 균형(alpha 및 M)에 견고하며 민감도가 미미하다.
제공된 잡초 데이터셋(leafy spurge)은 확산 모델 어휘 밖의 보지 못한 개념을 다루는 DA-Fusion의 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.