Skip to main content
QUICK REVIEW

[논문 리뷰] Variational Bayesian dropout: pitfalls and fixes

Jiri Hron, Alexander Matthews|arXiv (Cornell University)|2018. 07. 05.
Gaussian Processes and Bayesian Inference참고 문헌 3인용 수 23
한 줄 요약

이 논문은 변분 베이지안 드롭아웃에서의 근본적인 이론적 결함을 규명한다. 특히 부적절한 사전분포와 특이한 변분 근사가 표준 베이지안 추론을 무효화하는 문제를 다룬다. 이러한 문제를 해결하기 위해 저자는 새로운 변분 목표인 준-KL(QKL) 발산을 제안한다. 이는 진정한 사후분포와 근사 사후분포의 지지 집합이 다를 경우에도 고차원 분포의 일致한 근사가 가능하게 하며, 특별한 경우에선 주성분 분석(PCA)과 동치임을 보여준다.

ABSTRACT

Dropout, a stochastic regularisation technique for training of neural networks, has recently been reinterpreted as a specific type of approximate inference algorithm for Bayesian neural networks. The main contribution of the reinterpretation is in providing a theoretical framework useful for analysing and extending the algorithm. We show that the proposed framework suffers from several issues; from undefined or pathological behaviour of the true posterior related to use of improper priors, to an ill-defined variational objective due to singularity of the approximating distribution relative to the true posterior. Our analysis of the improper log uniform prior used in variational Gaussian dropout suggests the pathologies are generally irredeemable, and that the algorithm still works only because the variational formulation annuls some of the pathologies. To address the singularity issue, we proffer Quasi-KL (QKL) divergence, a new approximate inference objective for approximation of high-dimensional distributions. We show that motivations for variational Bernoulli dropout based on discretisation and noise have QKL as a limit. Properties of QKL are studied both theoretically and on a simple practical example which shows that the QKL-optimal approximation of a full rank Gaussian with a degenerate one naturally leads to the Principal Component Analysis solution.

연구 동기 및 목표

  • 변분 베이지안 드롭아웃에서 발생하는 이론적 모순을 진단하며, 특히 부적절한 사전분포와 특이한 변분 근사로 인한 문제를 다룬다.
  • 이론적 결함에도 불구하고 알고리즘이 여전히 잘 작동하는 이유를 설명한다.
  • 진짜 사후분포와 근사 사후분포 사이의 특이성 문제를 해결하는 새로운 변분 추론 목표를 개발한다.
  • 사후분포와 근사 사후분포의 지지 집합이 겹치지 않을 경우 표준 KL 발산의 대안이 되는 원칙적인 대체 방법을 확립한다.
  • 이론적 분석과 고차원 정규분포 근사 문제를 포함한 구체적 사례를 통해 새로운 목표의 실용적 유용성을 입증한다.

제안 방법

  • 표준 KL 발산이 특이성으로 인해 정의되지 않을 수 있는 상황에서도 여전히 잘 정의되는 변분 추론의 극한 형태로 준-KL(QKL) 발산을 제안한다.
  • 기존 접근법의 일반화로서 QKL를 유도하며, 이전 연구에서 제안된 조치들(예: Gal & Ghahramani, 2016)이 QKL의 특수한 경우임을 보여준다.
  • 지배 수렴 정리와 부분공간으로의 측도 제한과 같은 측도 이론적 도구를 사용하여 이산 근사가 연속 기대값으로 수렴함을 증명한다.
  • 전 Rank 정규분포를 열화된(비가역적) 정규분포로 근사하는 문제에 QKL를 적용하여 최적 해가 주성분 분석(PCA)과 일치함을 보여준다.
  • 정규분포 근사의 맥락에서 QKL 목표의 해석적 기울기를 도출하여 표준 변분 추론 기법을 통한 최적화를 가능하게 한다.
  • QKL 목표의 최적 해가 한계에서 PCA로 수렴함을 보여주며, 변분 추론과 차원 축소 기법 사이에 원칙적인 연결 고리를 제공한다.

실험 결과

연구 질문

  • RQ1왜 변분 베이지안 드롭아웃은 부적절한 사전분포와 특이한 변분 근사를 사용하고도 여전히 좋은 경험적 성능을 내는가?
  • RQ2진짜 사후분포보다 근사 사후분포의 지지 집합이 낮은 차원을 가질 경우, 표준 KL 발산을 사용한 변분 추론에서 발생하는 이론적 한계는 무엇인가?
  • RQ3특이성이 존재하는 상황에서도 잘 정의되고 일致하는 새로운 변분 목표를 구성할 수 있는가?
  • RQ4제안된 준-KL(QKL) 발산은 기존 추론 목표와 어떻게 관련이 있으며, 이들의 이론적 성질은 무엇인가?
  • RQ5QKL 목표는 특정한 극한 경우에서 기존의 통계적 방법, 예를 들어 PCA를 복원하는가?

주요 결과

  • 표준 변분 베이지안 드롭아웃 프레임워크는 부적절한 사전분포와 특이한 변분 근사로 인해 이론적으로 부적절하여 표준 베이지안 해석이 무효화된다.
  • 변분 정규분포 드롭아웃에서 사용되는 로그균일 사전분포는 부적절한 사후분포를 초래하며, 이로 인해 희소성 유도가 본질적으로 비베이지안적 성격을 띤다.
  • 근사 사후분포의 지지 집합이 진짜 사후분포보다 낮은 차원을 가질 경우 표준 KL 발산은 정의되지 않으며, 이는 고차원 설정에서 흔한 문제이다.
  • 특이성 문제를 해결하고 기존 접근법을 일반화하는 잘 정의된 극한 목표로서 준-KL(QKL) 발산이 도입된다.
  • 전 Rank 정규분포를 열화된 정규분포로 근사하는 경우, QKL 최적 해는 주성분 분석(PCA) 해로 수렴하며, 이는 변분 추론과 고전적 차원 축소 기법 사이에 원칙적인 연결 고리를 보여준다.
  • 데이터 포인트 수가 증가함에 따라 QKL 목표의 최적 해는 프로베니우스/유클리드 노름에서 PCA로 수렴함을 확인하여, 이 방법의 일致성과 이론적 기반을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.