QUICK REVIEW

[논문 리뷰] Hybrid Models with Deep and Invertible Features

Eric Nalisnick, Akihiro Matsukawa|arXiv (Cornell University)|2019. 02. 07.

Generative Adversarial Networks and Image Synthesis인용 수 34

한 줄 요약

이 논문은 깊은 가역적 특징 변환과 일반화 선형 모델을 결합한 신경 하이브리드 모델(DIGLM)을 제안하여 한 번의 순전파에서 정확한 결합 밀도 p(x, y)와 정확한 예측 분포 p(y|x)를 가능하게 하며, 유용한 이상치 탐지 및 반지도 학습을 지원합니다.

ABSTRACT

We propose a neural hybrid model consisting of a linear model defined on a set of features computed by a deep, invertible transformation (i.e. a normalizing flow). An attractive property of our model is that both p(features), the density of the features, and p(targets | features), the predictive distribution, can be computed exactly in a single feed-forward pass. We show that our hybrid model, despite the invertibility constraints, achieves similar accuracy to purely predictive models. Moreover the generative component remains a good model of the input features despite the hybrid optimization objective. This offers additional capabilities such as detection of out-of-distribution inputs and enabling semi-supervised learning. The availability of the exact joint density p(targets, features) also allows us to compute many quantities readily, making our hybrid model a useful building block for downstream applications of probabilistic deep learning.

연구 동기 및 목표

타깃과 입력의 공동 모델링 사용의 필요성과 그로 인한 강건성 향상 및 이상치 탐지 가능성에 대한 동기를 제시한다.
가역적 변환을 통해 단일 순전파에서 p(x)와 p(y|x)를 모두 학습하는 신경 하이브리드를 개발한다.
p(y|x)와 p(x)에 대한 정확한 추론을 입증하고 이를 반지도 학습 및 선택적 분류의 이점과 연결한다.
분류와 회귀 벤치마크에서 예측 정확도, 불확실성, OOD 탐지를 평가한다.]
method:["변수 y, x에 대한 공동 모델 p(y, x) = p(y|x; β, φ) p(x; φ) 를 정의하고 x가 가역적 f에 의해 변환되며 z = f(x)로 표현된다.","잠재 표현 z에서 p(y|x; β, φ)로 GLM을 사용하고 사전분포를 통해 정확하거나 해석적으로 닫힌 형태의 예측 추론을 가능하게 한다.","가역 생성 모델과 예측 GLM 간 φ를 공유하여 생성적-판별 목표를 결합한다.","정확한 결합 로그 우도 J(θ) = Σ log p(y, x; θ) 를 최대화하는 학습으로 변화도 공식에 의한 정확한 p(x) 및 여러 설정에서의 p(y|x) 를 얻는다.","가중치 있는 목표 Jλ(θ) = Σ [ log p(y|x; β, φ) + λ log p(x; φ) ] 를 도입하여 판별적 요소와 생성적 요소를 균형 있게 조정한다.","라벨이 없는 x 데이터에 대한 p(x; φ)를 통한 y의 합산으로 반지도 학습을 논의하고, 임계값 τ를 사용해 p(x; φ)가 낮은 입력을 거부하여 선택적 분류를 구현한다.","β에 사전분포를 두고 베이지안 처리(B-DIGLM)로 확장하여, 커널 k(xi, xj) = λ^{-1} f(xi; φ)^T f(xj; φ) 를 통해 가우시안 프로세스와의 연결 및 특정 설정에서의 정확한 사후 계산을 도출한다."]
research_questions:[
,
]}
key_findings:[
DIGLM은 판별 모델의 예측 정확도와 함께 한 번의 패스에서 명시적으로 p(x)와 p(y|x)를 제공한다.
모델은 p(x; φ)를 통해 이상치를 탐지하고 불확실성 추정 수준을 개선한다( MNIST 및 SVHN 실험에서 확인).
MNIST에서 λ가 0이 아닌 하이브리드 모델은 내재 및 외재 분포 데이터에서 더 나은 NLL과 엔트로피를 보여 OOD 탐지 향상을 시사한다.
비행 지연 회귀에서 DIGLM은 최신 기술 대비 NLL이 현저히 더 낫게 나타나 비정상성 모델링이 효과적임을 보여준다.
반지도 실험에서 비레이블 데이터가 의사결정 경계와 분류 정확도를 향상시킨다.
베이지안 해석은 주변 우도를 GP 유사 커널과 연결하여 커널 방법 및 특정 설정에서의 정확한 사후 계산과의 연결을 가능하게 한다.

제안 방법

- 모델 및 데이터의 주요 결과를 요약합니다.

실험 결과

연구 질문

RQ1Can a deep invertible transformation plus a GLM yield exact inference for both p(x) and p(y|x) in a single forward pass?
RQ2Does sharing the invertible feature extractor φ between p(x) and p(y|x) maintain predictive performance while enabling reliable OOD detection?
RQ3How does the DIGLM perform in semi-supervised settings where unlabeled x data are available?
RQ4Can the model effectively reject out-of-distribution inputs using the generative density p(x; φ)?
RQ5What are the advantages of a Bayesian DIGLM (B-DIGLM) and its relation to Gaussian processes?

주요 결과

모델	MNIST BPD(비트/차원)	MNIST 오류(%)	MNIST NLL	NotMNIST BPD(비트/차원)	NotMNIST NLL	NotMNIST 엔트로피
Discriminative (λ=0)	81.80*	0.67	0.082	87.74*	29.27	0.130
Hybrid (λ=0.01/D)	1.83	0.73	0.035	5.84	2.36	2.300
Hybrid (λ=1.0/D)	1.26	2.22	0.081	6.13	2.30	2.300
Hybrid (λ=10.0/D)	1.25	4.01	0.145	6.17	2.30	2.300

DIGLM은 판별 모델의 예측 정확도와 함께 한 번의 패스에서 명시적으로 p(x)와 p(y|x)를 제공한다.
모델은 p(x; φ)를 통해 이상치를 탐지하고 불확실성 추정 수준을 개선한다( MNIST 및 SVHN 실험에서 확인).
MNIST에서 λ가 0이 아닌 하이브리드 모델은 내재 및 외재 분포 데이터에서 더 나은 NLL과 엔트로피를 보여 OOD 탐지 향상을 시사한다.
비행 지연 회귀에서 DIGLM은 최신 기술 대비 NLL이 현저히 더 낫게 나타나 비정상성 모델링이 효과적임을 보여준다.
반지도 실험에서 비레이블 데이터가 의사결정 경계와 분류 정확도를 향상시킨다.
베이지안 해석은 주변 우도를 GP 유사 커널과 연결하여 커널 방법 및 특정 설정에서의 정확한 사후 계산과의 연결을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.