QUICK REVIEW

[논문 리뷰] Understanding Priors in Bayesian Neural Networks at the Unit Level

Mariia Vladimirova, Jakob Verbeek|arXiv (Cornell University)|2018. 10. 11.

Neural Networks and Applications인용 수 36

한 줄 요약

이 논문은 가우시안 가중치 사전분포를 가진 베이지안 신경망에서 은닉 유닛의 사전분포를 조사하며, 첫 번째 레이어에서는 가우시안에서 시작하여 깊이가 증가함에 따라 점점 더 무거운 尾 꼬리 분포인 하위-웨이불 분포로 변화함을 보여준다. 특히 레이어 ℓ에 대해 尾 꼬리 매개수 θ = ℓ/2이다. 이는 기존의 가중치 감소 외에도 깊이에 따라 변하는 유닛 수준의 정규화 효과를 드러낸다.

ABSTRACT

We investigate deep Bayesian neural networks with Gaussian weight priors and a class of ReLU-like nonlinearities. Bayesian neural networks with Gaussian priors are well known to induce an L2, "weight decay", regularization. Our results characterize a more intricate regularization effect at the level of the unit activations. Our main result establishes that the induced prior distribution on the units before and after activation becomes increasingly heavy-tailed with the depth of the layer. We show that first layer units are Gaussian, second layer units are sub-exponential, and units in deeper layers are characterized by sub-Weibull distributions. Our results provide new theoretical insight on deep Bayesian neural networks, which we corroborate with simulation experiments.

연구 동기 및 목표

가우시안 가중치 사전분포 하에서 깊은 베이지안 신경망의 은닉 유닛의 주변 사전분포를 이해하기 위해.
유닛 활성화의 꼬리 행동이 네트워크 깊이에 따라 어떻게 변화하는지 기술하기 위해.
기존에 관측되지 않은, 가중치 수준이 아닌 유닛 수준에서 작용하는 정규화 메커니즘을 드러내기 위해.
ReLU 유사 비선형성 하에서 더 깊은 레이어의 활성화가 두꺼운 꼬리 성질을 갖는 이유에 대한 이론적 근거를 제공하기 위해.
유닛 수준의 사전분포를 정규화와 희박성과 연결된 보다 광범위한 개념과 연결하기 위해.

제안 방법

완전히 연결된 피드포워드 네트워크에서 비선형성 이전 및 이후의 주변 사전분포에 대한 이론적 분석.
활성화 함수 φ에 대한 온건한 조건 하에서 레이어 ℓ의 유닛 활성화에 대한 하위-웨이불 분포의 꼬리 매개수 θ = ℓ/2를 유도.
특성 함수와 모멘트 생성 함수 분석을 사용하여 하위-웨이불 성질을 입증.
ReLU 유사 활성화가 깊이에 따라 증가하는 꼬리 무게를 갖는 하위-웨이불 유닛을 유도하는 정리 3.1의 증명.
표준 정규 입력과 ReLU 활성화를 갖는 100층의 MLP를 사용한 시뮬레이션 실험으로 이론적 꼬리 행동을 검증.
레이어 1, 2, 3, 10, 100에서의 비선형성 이전 사전분포에서 10⁵개 샘플의 히스토그램을 통한 실증적 검증.

실험 결과

연구 질문

RQ1가우시안 가중치를 갖는 베이지안 신경망에서 은닉 유닛 활성화의 사전분포는 깊이가 증가함에 따라 어떻게 변화하는가?
RQ2유닛의 주변 사전분포의 기능적 형태는 무엇이며, 레이어 깊이에 따라 어떻게 달라지는가?
RQ3가우시안 사전분포의 정규화 효과는 가중치 수준 외에도 유닛 수준에서 더 잘 이해될 수 있는가?
RQ4ReLU 유사 비선형성은 깊은 베이지안 네트워크에서 유닛 활성화의 꼬리 행동에 어떻게 영향을 미치는가?
RQ5유도된 하위-웨이불 사전분포는 희박성 유도 정규화 메커니즘과 어떤 연결고리가 있는가?

주요 결과

첫 번째 레이어 유닛의 사전분포는 가우시안이며, 꼬리 매개수 θ = 1/2인 하위-웨이불 분포에 해당한다.
두 번째 레이어 유닛은 하위-지수 분포를 따르며, 이는 꼬리 매개수 θ = 1인 하위-웨이불 분포와 동일하다.
더 깊은 레이어의 유닛은 점점 더 두꺼운 꼬리 특성을 갖는 하위-웨이불 분포로 특징지어지며, 레이어 ℓ에 대해 꼬리 매개수 θ = ℓ/2이다.
100번째 은닉 레이어는 매우 평평하고 두꺼운 꼬리 분포를 보이며, 이는 꼬리 매개수 θ = 50인 하위-웨이불 분포에 해당함을 실증 히스토그램으로 확인하였다.
이론적 결과는 무한대에서 선형적으로 증가하는 활성화 함수(예: ReLU)에 대해 성립하지만, 시그모이드나 탄젠트와 같은 유계 함수에는 성립하지 않는다.
이러한 발견은 유닛 수준에서 깊이에 따라 변화하는 정규화 메커니즘이 있음을 시사하며, 이는 깊은 베이지안 네트워크에서의 일반화 성능 향상에 기여할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.