[논문 리뷰] Image retrieval outperforms diffusion models on data augmentation
본 연구는 확산 모델 기반 데이터 증강과 DM의 학습 데이터에서 가장 가까운 이웃 검색 기반 바탕의 간단한 비교를 수행하여, 데이터가 부족한 조건에서 ImageNet에 대해 검색이 종종 다운스트림 분류기의 성능을 더 강하게 얻는다는 것을 발견한다. 확산 모델의 개인화는 도움이 되지만 검색을 이기지는 못한다.
Many approaches have been proposed to use diffusion models to augment training datasets for downstream tasks, such as classification. However, diffusion models are themselves trained on large datasets, often with noisy annotations, and it remains an open question to which extent these models contribute to downstream classification performance. In particular, it remains unclear if they generalize enough to improve over directly using the additional data of their pre-training process for augmentation. We systematically evaluate a range of existing methods to generate images from diffusion models and study new extensions to assess their benefit for data augmentation. Personalizing diffusion models towards the target data outperforms simpler prompting strategies. However, using the pre-training data of the diffusion model alone, via a simple nearest-neighbor retrieval procedure, leads to even stronger downstream performance. Our study explores the potential of diffusion models in generating new training data, and surprisingly finds that these sophisticated models are not yet able to beat a simple and strong image retrieval baseline on simple downstream vision tasks.
연구 동기 및 목표
- 데이터가 부족한 조건에서 다운스트림 이미지 분류를 위한 확산 모델 기반 데이터 증강 방법의 효과를 평가한다.
- 다양한 DM 기반 증강 전략과 검색 바탕선을 체계적으로 벤치마킹한다.
- 프롬프트 기반 방법보다 확산 모델을 개인화하는 것이 증강 품질을 개선하는지 평가한다.
제안 방법
- 10% ImageNet 하위 집합에서 확산 모델 기반 증강 방법(무조건적 생성, 프롬프트 컨디셔닝, 미세튜닝을 통한 개인화)을 벤치마킹한다.
- 이 방법들을 클래스 프롬프트와 최대한 CLIP와 유사한 임베딩 공간을 사용하여 DM의 사전 학습 데이터(Laion 5b)에서 가장 가까운 이미지를 선택하는 검색 바탕선과 비교한다.
- Augmented 데이터로 학습된 ResNet-50의 다운스트림 정확도를 평가한다.
- 결과의 일반화를 테스트하기 위해 전체 ImageNet과 Caltech256에 대한 평가를 확장한다.
- 프롬프트, 컨디셔닝, 개인화 효과를 분석하여 다양성 및 도메인 정렬에 대한 통제를 수행한다.
실험 결과
연구 질문
- RQ1확산 모델 기반 증강 방법이 DM의 사전 학습 데이터에서의 간단한 최근접 이웃 검색 바탕선보다 우수한가?
- RQ2프롬프트 기반 컨디셔닝이나 확산 모델의 개인화가 검색 성능의 격차를 좁힐 수 있는가?
- RQ310% ImageNet 하위 집합에 대한 결과가 전체 ImageNet 및 Caltech256와 같은 다른 데이터셋으로 일반화되는가?
- RQ4DM 기반 증강과 검색 기반 증강 간의 계산 및 데이터 품질의 trade-off는 무엇인가?
주요 결과
- 확산 모델 기반 증강은 10% ImageNet의 비증강 기준선보다 개선되지만 DM의 학습 데이터(Laion 5b)에서의 최근접 이웃 검색에 의해 이겨지지 않는다.
- 간단한 검색 바탕선이 평가된 방법 중 다운스트림 top-1 정확도에서 가장 좋은 성능을 보인다(검색: 62.6% ±0.1 on 10% ImageNet).
- 프롬프트 기반 컨디셔닝(CLIP 템플릿 포함)은 기본 프롬프트보다 개선되지만 검색을 능가하지는 못한다.
- 확산 모델의 개인화(컨디셔닝 미세튜닝, 군집 컨디셔닝, 텍스추얼 인버전, DM 미세튜닝)는 DM 기반 증강을 더 개선하지만 여전히 검색을 이기지 못한다.
- 전체 ImageNet 및 Caltech256에 결과가 일반화되며, 검색은 강한 성능과 효율성 이점을 유지한다.
- 검색은 계산적으로 효율적이며 큰 데이터셋을 다운로드하거나 학습할 필요가 없고, 검색 색인과 최근접 이웃 이미지만 필요로 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.