QUICK REVIEW

[논문 리뷰] Functional Variational Bayesian Neural Networks

Shengyang Sun, Guodong Zhang|arXiv (Cornell University)|2019. 03. 14.

Adversarial Robustness in Machine Learning인용 수 115

한 줄 요약

논문은 함수에 대해 변분 추론을 수행하는 functional variational Bayesian neural networks (fBNNs)을 도입하여 함수에 대한 variational inference를 수행하고, KL 발산을 근사하기 위해 functional ELBO와 finite measurement sets를 사용함으로써 구조화된 priors와 확장 가능하고 신뢰할 수 있는 불확실성 추정치를 가능하게 한다.

ABSTRACT

Variational Bayesian neural networks (BNNs) perform variational inference over weights, but it is difficult to specify meaningful priors and approximate posteriors in a high-dimensional weight space. We introduce functional variational Bayesian neural networks (fBNNs), which maximize an Evidence Lower BOund (ELBO) defined directly on stochastic processes, i.e. distributions over functions. We prove that the KL divergence between stochastic processes equals the supremum of marginal KL divergences over all finite sets of inputs. Based on this, we introduce a practical training objective which approximates the functional ELBO using finite measurement sets and the spectral Stein gradient estimator. With fBNNs, we can specify priors entailing rich structures, including Gaussian processes and implicit stochastic processes. Empirically, we find fBNNs extrapolate well using various structured priors, provide reliable uncertainty estimates, and scale to large datasets.

연구 동기 및 목표

왜 weight-space priors가 함수와 관련되기 어려운지와 함수 공간의 변분 추론이 어떻게 도움을 줄 수 있는지의 동기를 제시한다.
functional ELBO (fELBO)를 정의하고, 확률 과정 간의 KL 발산은 유한 입력 세트의 주변 KL의 상의 극값으로 계산된다는 것을 보인다.
finite measurement sets와 spectral Stein gradient estimator (SSGE)을 사용한 실용적 학습 목표를 제시한다.
fBNN이 구조화된 priors(GP 및 암시적 프로세스 등)를 활용하고 대규모 데이터셋에 확장될 수 있음을 입증한다.
외삽, 불확실성 정량화 및 맥락 밴딧 성능에서 경험적 이점을 보여준다.

제안 방법

함수에 대한 확률 과정 사전 p와 신경망의 확률 가중치/입력으로 구현된 함수에 대한 변분posterior q를 정의한다.
functional ELBO를 형식화한다: L(q)=E_q[log p(D|f)] - KL[q||p], 여기서 KL은 stochastic processes 간의 KL이며 유한 measurement-set 모 marginals의 상의 극값으로 계산한다(Theorem 1).
샘플링과 spectral Stein gradient estimator (SSGE)를 통해 측정 세트의 주변 KL들로 functional KL 그래디언트를 근사한다.
fELBO를 최적화하기 위한 GAN 유사의 최소-최대 프레임워크를 채택한다(측정 세트의 적대적 구성이나 샘플링 기반 목표를 사용).
측정 포인트와 함수 샘플을 샘플링하고, 우도 그래디언트를 계산하며, KL 그래디언트를 근사하기 위해 SSGE를 사용하는 알고리즘(Algorithm 1)을 제공한다.
명시적 또는 암시적 stochastic process priors(포함: GP 및 조각별 함수 priors)를 허용하고 Thompson 샘플링과 같은 작업에서 명시적 posterior 함수 샘플을 가능하게 한다.

실험 결과

연구 질문

RQ1함수 공간에서 직접 변분 추론을 수행하여 weight-space priors보다 풍부한 priors를 가능하게 할 수 있는가?
RQ2fBNN에서 stochastic processes 간의 KL 발산을 실제로 어떻게 계산하거나 근사할 수 있는가?
RQ3구조화된 priors를 가진 fBNN은 weight-space BNN과 비교해 외삽 및 신뢰할 수한 불확실성 추정에서 우수한가?
RQ4대규모 데이터셋에 확장하면서도 예측 성능과 불확실성 보정이 잘 유지될 수 있는가?
RQ5fBNN이 Thompson sampling 또는 predictive entropy search와 같은 작업에 유용한 함수의 후방 샘플을 가능하게 하는가?

주요 결과

구조화된 priors( GP 유사 및 암시적 priors 포함)로도 fBNN은 잘 외삽한다.
fBNN은 신뢰할 수 있는 불확실성 추정치를 제공하며 대규모 데이터셋으로 확장된다.
주기적 구조가 있는 외삽 과제에서 fBNN은 해당 커널과 일치하는 GP priors와 유사하며 가중치 공간 BBB 베이스라인보다 우수한 성능을 보인다.
소규모 회귀 벤치마크에서 fBNN은 RMSE 및 로그-가능도에서 BBB 및 Noisy K-FAC를 능가한다. 여러 데이터셋에서
대규모 데이터셋에서 fBNN은 경쟁력 있는 RMSE 및 로그-가능도를 달성하며 확장성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.