Skip to main content
QUICK REVIEW

[논문 리뷰] Likelihood Regret: An Out-of-Distribution Detection Score For Variational Auto-encoder

Zhisheng Xiao, Qing Yan|arXiv (Cornell University)|2020. 03. 06.
Adversarial Robustness in Machine Learning참고 문헌 52인용 수 64
한 줄 요약

논문은 Likelihood Regret를 도입한다, VAE의 OOD 탐지 점수로서 샘플별 최적 포스트 구성을 학습된 모집단 ELBO와 비교하고, LR이 여러 이미지 데이터셋에서 likelihood 기반 OOD 탐지보다 뛰어나다는 것을 보여준다.

ABSTRACT

Deep probabilistic generative models enable modeling the likelihoods of very high dimensional data. An important application of generative modeling should be the ability to detect out-of-distribution (OOD) samples by setting a threshold on the likelihood. However, some recent studies show that probabilistic generative models can, in some cases, assign higher likelihoods on certain types of OOD samples, making the OOD detection rules based on likelihood threshold problematic. To address this issue, several OOD detection methods have been proposed for deep generative models. In this paper, we make the observation that many of these methods fail when applied to generative models based on Variational Auto-encoders (VAE). As an alternative, we propose Likelihood Regret, an efficient OOD score for VAEs. We benchmark our proposed method over existing approaches, and empirical results suggest that our method obtains the best overall OOD detection performances when applied to VAEs.

연구 동기 및 목표

  • VAE에서 likelihood가 오해를 불러일으킬 수 있는 상황에서 신뢰할 수 있는 OOD 탐지를 위한 동기 부여.
  • likelihood 불일치를 완화하는 샘플별 최적화 기반 점수(Likelihood Regret) 제안.
  • 다양한 이미지 데이터셋에서 LR을 기존의 OOD 점수와 대조 평가.
  • LR의 VAE 변형과 용량에 따른 강건성과 β-VAE 설정에 대한 분석.

제안 방법

  • LR(x)=L(x;θ*,τ̂(x))−L(x;θ*,φ*), L이 ELBO 기반 로그 가능도인 방식으로 정의한다.
  • VAE의 IWELBO(K 샘플)을 추정하여 L을 계산한 뒤, θ*를 고정한 상태에서 단일 입력에 대해 변분 매개변수 τ를 최적화하여 L을 최대화한다.
  • 엔코더 φ의 최적화 또는 τ(x)를 직접 최적화하여 τ̂(x)을 얻는다.
  • 잠재적 후방 매개변수의 변화를 제한함으로써 VAE 병목현상을 통해 최적화를 정규화한다.
  • LR을 여러 OOD 태스크에서 기준선(Likelihood, IC, Likelihood Ratio, LMD)과 비교한다.

실험 결과

연구 질문

  • RQ1LR이 표준 likelihood가 실패하는 VAE의 경우에서도 분포 내 샘플과 분포 외 샘플을 신뢰성 있게 구분할 수 있는가?
  • RQ2LR이 다양한 분포 내/분포 외 쌍에서 기존 OOD 점수와 어떻게 비교되는가?
  • RQ3LR이 서로 다른 VAE 용량 및 β-VAE 설정에 대해 얼마나 강건한가?
  • RQ4다른 OOD 방법과 비교할 때 LR의 계산적 트레이드오프는 어느 정도인가?

주요 결과

  • LR은 VAEs에서 관찰된 likelihood 불일치를 보정하고 대부분의 OOD 태스크에서 높은 AUC-ROC를 제공한다.
  • Fashion MNIST vs MNIST에서 LR은 AUC-ROC를 0.165(likelihood)에서 0.999로 향상시킨다.
  • CIFAR-10 vs SVHN에서 LR은 AUC-ROC를 0.161(likelihood)에서 0.876으로 향상시킨다.
  • LR_E(엔코더에 대해 최적화)와 LR_Z(잠재 통계에 대해 최적화) 변형 모두 좋은 성능을 보이며, 일반적으로 LR_E가 더 우수한 경향이다.
  • β-VAE 설정 및 용량이 다른 VAE에 대해 LR이 강건하지만, 매우 큰 용량의 경우 일부 태스크에서 성능이 약간 감소할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.