[논문 리뷰] Understanding Hallucinations in Diffusion Models through Mode Interpolation
논문은 모드 보간(mode interpolation)으로 불리는 확산 모델의 실패 모드를 식별합니다. 이는 모델이 서로 인접한 데이터 모드 사이에서 샘플을 생성해 학습 지원 밖에서 환각을 만들고, 생성 및 재귀 학습 중 이러한 샘플을 탐지하고 제거하기 위한 분산 기반 메트릭을 제안합니다.
Colloquially speaking, image generation models based upon diffusion processes are frequently said to exhibit "hallucinations," samples that could never occur in the training data. But where do such hallucinations come from? In this paper, we study a particular failure mode in diffusion models, which we term mode interpolation. Specifically, we find that diffusion models smoothly "interpolate" between nearby data modes in the training set, to generate samples that are completely outside the support of the original training distribution; this phenomenon leads diffusion models to generate artifacts that never existed in real data (i.e., hallucinations). We systematically study the reasons for, and the manifestation of this phenomenon. Through experiments on 1D and 2D Gaussians, we show how a discontinuous loss landscape in the diffusion model's decoder leads to a region where any smooth approximation will cause such hallucinations. Through experiments on artificial datasets with various shapes, we show how hallucination leads to the generation of combinations of shapes that never existed. Finally, we show that diffusion models in fact know when they go out of support and hallucinate. This is captured by the high variance in the trajectory of the generated sample towards the final few backward sampling process. Using a simple metric to capture this variance, we can remove over 95% of hallucinations at generation time while retaining 96% of in-support samples. We conclude our exploration by showing the implications of such hallucination (and its removal) on the collapse (and stabilization) of recursive training on synthetic data with experiments on MNIST and 2D Gaussians dataset. We release our code at https://github.com/locuslab/diffusion-model-hallucination.
연구 동기 및 목표
- 확산 모델에서 환각을 근접한 데이터 모드 간의 모드 보간으로 공식화하고 특성화한다.
- 학습된 스코어 함수가 불연속성을 어떻게 매끄럽게 만들어 보간된, 지원 밖의 샘플로 이어지는지 분석한다.
- 생성 시 환각을 탐지하고 필터링하기 위해 트래젝토리 분산에 기반한 메트릭을 제안한다.
- 재귀 학습에 대한 시사점을 탐구하고 합성 데이터와 MNIST 데이터에 대한 선제적 필터링을 통해 완화를 시연한다.
제안 방법
- 1D 및 2D 가우시안 혼합을 연구하여 확산 모델이 인근 모드 사이에서 보간하는지 보여준다.
- 신경망이 실제 스코어 함수의 매끄러운 근사를 학습하는 것을 보여주며, 분리된 모드 사이 영역에서 보간이 발생하게 한다.
- 최종 확산 단계에서 x0 예측의 높은 분산 트젝터리를 환각의 징후로 식별한다.
- 시간에 따른 예측 x0의 분산에 기반하여 Hal(x) 환각 메트릭을 정의하고 샘플을 분류한다.
- 메트릭의 필터링 능력을 평가한다: 환각의 약 95–96%를 제거하고 지원 샘플의 약 95–98%를 보존한다.

실험 결과
연구 질문
- RQ1확산 모델이 왜 훈련 지원 밖의 샘플(환각)을 생성하는가?
- RQ2확산 모델은 인근 데이터 모드 간에 모드 보간을 보이며, 스코어 함수가 어떻게 작용하는가?
- RQ3시간 차 분산 기반 메트릭이 샘플의 상당 부분 손상 없이 환각을 탐지하고 필터링할 수 있는가?
- RQ4재귀 학습과 모델 안정성에 대한 환각의 시사점은 무엇인가?
주요 결과
- 확산 모델은 1D 및 2D 합성 가우시안 혼합에서 인근 모드 간 보간을 수행하여 훈련 지원 밖의 샘플을 생성한다.
- 매끄러운 학습된 스코어 함수가 분리된 모드 간 보간을 야기한다. 한번에 급격한 모드 점프이 아니라.
- 역 확산의 마지막 부분에서 x0 예측 궤적의 높은 분산은 환각과 상관관계가 있으며 탐지가 가능하게 한다.
- Hal(x) 메트릭은 다양한 설정에서 환각의 약 95–96%를 제거하는 동시에 약 95–98%의 지원 샘플을 보존한다.
- 메트릭에 기반한 선제적 필터링은 2D 가우시안, Simple Shapes, MNIST 데이터셋에서 재귀 학습 중 모델 붕괴를 완화한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.