Skip to main content
QUICK REVIEW

[논문 리뷰] Model Selection in Bayesian Neural Networks via Horseshoe Priors

Soumya Ghosh, Finale Doshi‐Velez|arXiv (Cornell University)|2017. 05. 29.
Gaussian Processes and Bayesian Inference참고 문헌 29인용 수 47
한 줄 요약

이 논문은 베이지안 신경망에서 노드의 전활성화에 털소 사전확률을 적용하여 활성화되지 않은 뉴런을 자동으로 제거함으로써 연속적이고 자동적인 모델 선택을 가능하게 한다. 이 방법은 과도하게 파rameter화된 경우에도 예측 정확도를 희생시키지 않고 압축되고 높은 성능을 발휘하는 네트워크를 달성한다. 이는 털소 사전확률의 무거운 尾와 날카로운 피크 특성을 활용하여 공유된 척도 파ram터를 통해 단위 수준의 희박성(스패arsity)을 유도함으로써 이루어진다.

ABSTRACT

Bayesian Neural Networks (BNNs) have recently received increasing attention for their ability to provide well-calibrated posterior uncertainties. However, model selection---even choosing the number of nodes---remains an open question. In this work, we apply a horseshoe prior over node pre-activations of a Bayesian neural network, which effectively turns off nodes that do not help explain the data. We demonstrate that our prior prevents the BNN from under-fitting even when the number of nodes required is grossly over-estimated. Moreover, this model selection over the number of nodes doesn't come at the expense of predictive or computational performance; in fact, we learn smaller networks with comparable predictive performance to current approaches.

연구 동기 및 목표

  • 베이지안 신경망에서 모델 선택 문제, 특히 은닉 유닛 수의 선택이라는 열린 문제를 해결하기 위해.
  • 예측 성능을 훼손하지 않으면서 불필요한 뉴런을 제거할 수 있는 계산적으로 효율적이고 통계적으로 효과적인 방법을 개발하기 위해.
  • 스피크-앤프레슬 사전확률의 이산적이고 조합적 복잡성에서 벗어나 연속적이고 미분 가능한 모델 선택을 가능하게 하기 위해.
  • 노드 수준의 가중치 척도에 털소 사전확률을 적용할 경우 강력한 희박성을 유도하면서도 예측 정확도를 유지하거나 향상시킬 수 있는지 입증하기 위해.
  • 베이지안 신경망에서 네트워크 폭의 수동 하이퍼파라미터 탐색에 대한 확장 가능한 대안을 제공하기 위해.

제안 방법

  • 각 레이어의 뉴런에 대해 연결된 가중치의 분산에 털소 사전확률을 적용하며, 레이어 내 모든 뉴런에 공통된 전역 척도 파ram터 $\upsilon_l$ 를 사용한다.
  • 변분 추론의 안정성을 향상시키고 국소 최적값을 줄이기 위해 털소 사전확률의 비중앙(Non-centered) 파arameterization을 사용한다.
  • 각 뉴런의 가중치 벡터 $w_{kl}$ 를 조건부 정규분포로 모델링하며, 척도는 $\tau_{kl} \cdot \upsilon_l$ 로 설정한다. 여기서 $\tau_{kl}$ 와 $\upsilon_l$ 은 반-카우치 분포를 따른다.
  • 털소 사전확률의 중간 꼬리 특성을 활용하여 큰 가중치는 수축을 피하고 작은 가중치는 0으로 유도함으로써 비활성 뉴런을 효과적으로 비활성화한다.
  • 크기가 큰 네트워크에 적용하기 위해 완전히 요소화된 변분 추론 근사법을 사용하며, 이는 미분 가능성과 현대 딥러닝 프레임워크와의 호환성을 유지한다.
  • 이산적 모델 선택의 비가역성 문제를 피하면서도 유사한 희박성을 달성하기 위해 이산적 선택의 연속적 리포지션(relaxation)을 구현한다.

실험 결과

연구 질문

  • RQ1노드 전활성화에 털소 사전확률을 적용할 경우, 베이지안 신경망에서 자동 모델 선택을 효과적으로 수행할 수 있는가?
  • RQ2레이어 내 뉴런 간에 공유된 척도 파ram터를 사용할 경우, 예측 성능을 훼손하지 않고도 효과적인 단위 수준의 희박성을 유도할 수 있는가?
  • RQ3네트워크가 극도로 과도하게 파arameter화된 상태에서도 털소 사전확률이 부족한 학습(underfitting)을 방지할 수 있는가?
  • RQ4예측 정확도와 불확실성 캘리브레이션 측면에서 털소 기반 BNN은 VMG와 같은 최첨단 변분 추론 방법보다 성능이 뛰어나거나 유사한가?
  • RQ5이 설정에서 털소 사전확률의 비중앙 파arameterization은 강건한 추론을 위해 필수적인가?

주요 결과

  • 털소 사전확률은 이산적 모델 평균화가 필요 없이 연속적이고 미분 가능한 정규화를 통해 효과적인 자동 모델 선택을 가능하게 하며, 불필요한 뉴런을 제거한다.
  • 큰 수의 뉴런으로 초기화된 경우에도 HS-BNN은 부족한 학습을 피하고 압축되며 높은 성능을 발휘하는 아키텍처를 학습한다.
  • UCI 회귀 데이터셋에서 HS-BNN은 VMG와 비교해 경쟁력 있거나 뛰어난 예측 성능을 보이며, RMSE와 로그우도 점수는 유사하거나 더 우수하다.
  • Naval 및 Kin8nm 데이터셋에서 HS-BNN은 VMG보다 예측 로그우도 측면에서 뚜렷이 승리한다. 각각 5.52와 1.12를 기록한 반면, VMG는 2.46와 1.10를 기록했다.
  • 시각화 결과에 따르면 HS-BNN은 더 해석 가능한 필터를 학습하며, 더 강한 희박성과 숫자나 에지와 같은 의미 있는 패턴에 대응하는 필터를 생성한다. 이는 덜 희박한 대안들과는 대조된다.
  • 이 방법은 계산 효율성과 확장성을 유지하며, 이산적 스피크-앤프레슬 모델의 계산 부담 없이도 유사한 수준의 희박성을 달성할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.