Skip to main content
QUICK REVIEW

[논문 리뷰] Variational Gaussian Dropout is not Bayesian

Jiri Hron, Alexander Matthews|arXiv (Cornell University)|2017. 11. 08.
Gaussian Processes and Bayesian Inference참고 문헌 10인용 수 29
한 줄 요약

이 논문은 변분 가우시안 드롭아웃이 베이지안 추론으로 제시되긴 했지만, 부적절한 로그균일 사전분포로 인해 부적절한 사후분포를 초래함으로써 실제로는 타당한 베이지안 학습이 아니라는 것을 보여준다. 저자들은 가짜-KL 발산에 대한 정확한 해석적 표현을 유도하고, 이 방법이 고분산 사후분포를 선호함을 보이며, 후속 연구에서 도입된加법적 매개변수화가 원래의 곱셈 형태에서 존재하지 않는 허위 최소값을 유도한다는 것을 드러낸다.

ABSTRACT

Gaussian multiplicative noise is commonly used as a stochastic regularisation technique in training of deterministic neural networks. A recent paper reinterpreted the technique as a specific algorithm for approximate inference in Bayesian neural networks; several extensions ensued. We show that the log-uniform prior used in all the above publications does not generally induce a proper posterior, and thus Bayesian inference in such models is ill-posed. Independent of the log-uniform prior, the correlated weight noise approximation has further issues leading to either infinite objective or high risk of overfitting. The above implies that the reported sparsity of obtained solutions cannot be explained by Bayesian or the related minimum description length arguments. We thus study the objective from a non-Bayesian perspective, provide its previously unknown analytical form which allows exact gradient evaluation, and show that the later proposed additive reparametrisation introduces minima not present in the original multiplicative parametrisation. Implications and future research directions are discussed.

연구 동기 및 목표

  • 이전 연구에서 제시된 변분 가우시안 드롭아웃의 베이지안 해석을 도전한다.
  • 변분 드롭아웃에서 사용된 로그균일 사전분포가 부적절한 사후분포로 이어져, 베이지안 추론이 부적절하게 정의된다는 것을 보여준다.
  • 변분 사후분포와 부적절한 사전분포 사이의 가짜-KL 발산에 대한 정확한 해석적 표현을 제공한다.
  • 논문 [10]에서 도입된 재매개변수화가 원래 논문 [6]의 형태와 비교해 최적화 지형을 변화시킨다는 것을 보여준다.
  • 변분 드롭아웃을 해석 가능한 최적화 역학을 가진 비베이지안 정규화 최대우도 추정 절차로 재해석한다.

제안 방법

  • 디아이감 함수와 쿠머 함수를 사용하여, 가우시안 변분 사후분포와 로그균일 사전분포 사이의 KL 발산에 대한 정확한 해석적 표현을 유도한다.
  • 데이저 적분을 활용해 가짜-KL에 대한 연속적이고 미분 가능한 기울기 표현을 도입함으로써 정확한 기울기 계산을 가능하게 한다.
  • 곱셈 매개변수화(θ, α)와 덧셈 매개변수화(μ, σ²)의 목적함수 행동을 분석하여, 두 형태가 동치가 아님을 보인다.
  • 가짜-KL가 u = μ²/(2σ²)에 대해 엄격히 증가함을 증명함으로써, 최소화가 σ² → ∞ 또는 μ = 0를 선호함을 의미한다.
  • 상관된 가중치 노이즈 근사가 부적절한 사전분포와 결합될 경우, 무한대의 KL 발산을 가진 탈선된 사후분포를 초래함을 보여준다.
  • ELBO 최적화를 비표준 측도 하에서 정규화된 최대우도 추정 절차로 재해석함으로써, 베이지안 추론이 아닌 것으로 본다.

실험 결과

연구 질문

  • RQ1변분 가우시안 드롭아웃에서 사용된 로그균일 사전분포가 베이지안 신경망에서 적절한 사후분포를 초래하는가?
  • RQ2부적절한 사전분포를 고려할 때, 변분 드롭아웃 목적함수는 근사 베이지안 추론으로 의미 있게 해석될 수 있는가?
  • RQ3매개변수화 선택(곱셈 대비 덧셈)이 최적화 지형과 최종 모델 희소성에 어떤 영향을 미치는가?
  • RQ4가우시안 사후분포와 로그균일 사전분포 사이의 KL 발산에 대한 정확한 해석적 형태는 무엇인가?
  • RQ5이 설정 하에서 ELBO의 최적화가 잘 정의된 통계적 추정 절차에 해당하는가?

주요 결과

  • 로그균일 사전분포는 표준 신경망 우도함수에 대해 부적절한 사후분포를 초래함으로써, 베이지안 추론을 부적절하게 만든다.
  • 사후분포의 정규화 상수는 꼬리와 w = 0 근방의 적분을 통해 무한대임을 보여준다.
  • 상관된 가중치 노이즈 근사가 부적절한 사전분포와 결합될 경우, 무한대의 KL 발산을 초래하여, 베이지안 해석이 무효화된다.
  • 디아이감 함수와 쿠머 함수를 활용해 가짜-KL 발산에 대한 정확한 해석적 표현을 도출하였으며, 이는 정확한 기울기 계산을 가능하게 한다.
  • 목적함수는 u = μ²/(2σ²)에 대해 엄격히 증가하므로, 최소화 과정이 고분산 사후분포 또는 영균위치를 선호함을 의미한다.
  • 논문 [10]에서 도입된 덧셈 매개변수화는 원래 곱셈 형태에 존재하지 않는 새로운 최소값을 유도하며, 보고된 희소성의 차이를 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.