[논문 리뷰] Do Deep Generative Models Know What They Don't Know?
본 논문은 최첨단 심층 생성 모델(플로우 기반, VAE, PixelCNN 포함)이 훈련 데이터에서 학습된 분포 밖 데이터에 대해 더 높은 우도(likelihood)를 부여한다는 것을 보여주며, 밀도를 이상 탐지기로 사용하는 데 대한 도전을 제시한다. 흐름 모델의 원인을 분석하고 추가 이해 없이 이상 탐지에서 밀도 추정에 의존하는 것을 조심해야 한다고 경고한다.
A neural network deployed in the wild may be asked to make predictions for inputs that were drawn from a different distribution than that of the training data. A plethora of work has demonstrated that it is easy to find or synthesize inputs for which a neural network is highly confident yet wrong. Generative models are widely viewed to be robust to such mistaken confidence as modeling the density of the input features can be used to detect novel, out-of-distribution inputs. In this paper we challenge this assumption. We find that the density learned by flow-based models, VAEs, and PixelCNNs cannot distinguish images of common objects such as dogs, trucks, and horses (i.e. CIFAR-10) from those of house numbers (i.e. SVHN), assigning a higher likelihood to the latter when the model is trained on the former. Moreover, we find evidence of this phenomenon when pairing several popular image data sets: FashionMNIST vs MNIST, CelebA vs SVHN, ImageNet vs CIFAR-10 / CIFAR-100 / SVHN. To investigate this curious behavior, we focus analysis on flow-based generative models in particular since they are trained and evaluated via the exact marginal likelihood. We find such behavior persists even when we restrict the flows to constant-volume transformations. These transformations admit some theoretical analysis, and we show that the difference in likelihoods can be explained by the location and variances of the data and the model curvature. Our results caution against using the density estimates from deep generative models to identify inputs similar to the training distribution until their behavior for out-of-distribution inputs is better understood.
연구 동기 및 목표
- 밀도에 의해 보정된 심층 생성 모델이 학습 데이터와 다른 분포의 입력을 탐지할 수 있는지 평가한다.
- 흐름 기반 모델이 때때로 이상 분포 이미지에 더 높은 밀도를 할당하는 이유를 조사한다.
- 현상 원인을 식별하기 위해 가능 기여 요인을 분석한다.
- 확률의 변화-변수 요소와 일정-부피 흐름(constant-volume flows)이 밀도 동작에 미치는 역할을 평가한다.
제안 방법
- FashionMNIST와 MNIST 간의 Glow(플로우 기반) 모델 학습 및 CIFAR-10 vs SVHN 비교(그리고 CelebA, ImageNet 비교)
- 내재 분포(in-distribution) 및 외부 분포(out-of-distribution) 테스트 세트에서 로그-우도(log-likelihoods, 비트/차원) 계산 및 비교
- 변화-함수의 우도 로그를 log p(z)와 log|det df/dx|로 분해하여 기여 항을 식별
- 부피-불변( CV ) 및 비-volume-preserving ( NVP ) 변환을 조사하여 부피 효과를 제어
- 데이터 공분산 및 모델 곡률과의 관계를 네 번째 차원으로 확장하는 2차 분석 탐구
- 현상에 대한 강건성을 평가하기 위해 앙상블 실험을 테스트
실험 결과
연구 질문
- RQ1현대의 심층 생성 모델이 학습 데이터와 다른 분포의 데이터에 더 높은 밀도를 부여할 수 있는가?
- RQ2밀도에서 어떤 구성 요소(잠재 밀도 vs 부피 변화)가 밀도에서의 이상 분포 이점을 결정하는가?
- RQ3상수 부피 흐름(constant-volume flow) 변환이 이상 분포 밀도 역설을 제거하거나 감소시키는가?
- RQ4데이터 분산 및 모델 곡률은 이상 분포 집합에 대해 더 높은 밀도를 생산하는 데 어떻게 상호 작용하는가?
- RQ5앙상블이나 이미지의 그레이닝(graying)이 내재 분포와 이상 분포 간의 우도 차이에 영향을 주는가?
주요 결과
- 플로우 기반, VAE, 및 PixelCNN 모델이 학습 데이터(CIFAR-10)보다 외부 분포 데이터(SVHN)에 더 높은 우도를 부여할 수 있다.
- 플로우 모델의 경우, 이상 분포 효과는 부분적으로 잠재 p(z) 항이라기보다는 부피 항에서 주로 기인한다.
- 상수 부피 흐름은 현상을 제거하지 못하며; SVHN은 여전히 CIFAR-10보다 더 높은 우도를 가질 수 있다.
- 2차 분석은 데이터 공분산 및 모델 곡률 차이로 인해 SVHN의 우도가 더 높아질 것을 예측한다.
- 그레이링(variance 축소)은 CIFAR-10 및 SVHN의 우도를 증가시키며, 곡률 기반 설명과 일치한다.
- 앙상블은 내재 분포와 이상 분포 간의 우도 차이를 크게 감소시키지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.