QUICK REVIEW

[논문 리뷰] Input complexity and out-of-distribution detection with likelihood-based generative models

Joan Serrà, David Álvarez|arXiv (Cornell University)|2019. 09. 25.

Adversarial Robustness in Machine Learning참고 문헌 30인용 수 98

한 줄 요약

이 논문은 입력 복잡도가 생성 모델의 가능도에 편향을 준다는 것을 보이고, lossless 압축으로부터 얻은 복잡도 추정 L(x)를 이용한 가능도 비와 유사한 OOD 점수 S = -log p(x|M) - L(x)를 제안하여, 하이퍼파라미터 없이도 다양한 데이터셋과 모델에서 경쟁력 있는 OOD 탐지를 달성한다.

ABSTRACT

Likelihood-based generative models are a promising resource to detect out-of-distribution (OOD) inputs which could compromise the robustness or reliability of a machine learning system. However, likelihoods derived from such models have been shown to be problematic for detecting certain types of inputs that significantly differ from training data. In this paper, we pose that this problem is due to the excessive influence that input complexity has in generative models' likelihoods. We report a set of experiments supporting this hypothesis, and use an estimate of input complexity to derive an efficient and parameter-free OOD score, which can be seen as a likelihood-ratio, akin to Bayesian model comparison. We find such score to perform comparably to, or even better than, existing OOD detection approaches under a wide range of data sets, models, model sizes, and complexity estimates.

연구 동기 및 목표

생성 모델의 가능도가 입력 복잡도에 의해 크게 편향된다는 것을 입증한다.
복잡도 보정된 OOD 점수를 제안하여 외분포 입력을 탐지한다.
제안된 점수를 다양한 데이터셋과 모델에 걸쳐 기존의 OOD 방법과 비교한다.
점수에 대한 이론적 해석을 가능도-비 테스트로 제공한다.
방법의 실용적이고 파라미터 자유로운 적용 가능성을 제시한다.

제안 방법

CIFAR10/FashionMNIST 유사 데이터셋에서 autoregressive 및 invertible 생성 모델(PixelCNN++ 및 Glow)을 학습시켜 로그 가능도를 얻는다.
lossless 압축기(PNG, JPEG2000, FLIF)를 이용한 정규화된 압축 길이를 통해 입력 복잡도 L(x)를 추정한다.
S(x) = -ell_M(x) - L(x)로 정의된 OOD 점수를 도출하되, ell_M(x)는 모델 M하의 로그 가능도이다.
Universal compressor M0 하에서 S(x)를 가능도-비(test statistic)로 해석한다.
다양한 in-distribution vs. out-of-distribution 쌍에서 AUROC를 주요 지표로 S를 평가한다.
모델 크기와 압축기 선택이 S의 성능에 미치는 영향을 탐색한다.

실험 결과

연구 질문

RQ1입력 복잡도가 생성 모델의 가능도 기반 OOD 탐지 실패를 설명할 수 있는가?
RQ2복잡도 보정 가능도 점수가 다양한 데이터셋과 모델에서 OOD 탐지를 개선하는가?
RQ3제안된 점수가 기존의 생성 기반 및 분류 기반 OOD 방법과 어떻게 비교되는가?
RQ4점수가 파라미터 없이 모델 크기나 압축기 선택에 대해 강건한가?
RQ5이 접근법을 베이지안 모델 비교나 MDL 원리에 따라 해석할 수 있는가?

주요 결과

생성 모델의 가능도는 입력 복잡도와 강하게 음의 상관관계를 가지며, 때로는 로그 가능도 분산의 대부분을 설명한다.
L(x)에 의한 복잡도 기반 보정은 파라미터가 없는 OOD 점수 S를 만들어 여러 데이터셋에서 -ell_M(x)만 사용하는 경우보다 AUROC를 개선한다.
CIFAR10으로 학습된 모델의 경우 S는 일반적으로 0.7 이상, 몇몇 데이터셋에서 0.9–1.0에 근접한 AUROC를 달성하여 가능도만 사용하는 경우보다 우수하다.
S는 기존의 분류기 기반 및 생성 기반 OOD 방법들과 경쟁적이며, 모델과 압축기 선택 외의 하이퍼파라미터를 사용하지 않는다.
더 큰 생성 모델과 더 나은 압축기가 S의 구분 성능을 향상시키는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.