[논문 리뷰] Bayesian Neural Network Priors Revisited
이 논문은 SGD로 학습된 신경망을 실증적으로 분석하여 가중치 분포 패턴을 식별하고 아키텍처- 및 작업 의존적 사전(FCNN은 헤비테일; CNN/ResNet은 상관된 가우시안)을 제시하여 베이지안 NN 성능을 개선하고 콜드 포스터 효과를 다룬다.
Isotropic Gaussian priors are the de facto standard for modern Bayesian neural network inference. However, it is unclear whether these priors accurately reflect our true beliefs about the weight distributions or give optimal performance. To find better priors, we study summary statistics of neural network weights in networks trained using stochastic gradient descent (SGD). We find that convolutional neural network (CNN) and ResNet weights display strong spatial correlations, while fully connected networks (FCNNs) display heavy-tailed weight distributions. We show that building these observations into priors can lead to improved performance on a variety of image classification datasets. Surprisingly, these priors mitigate the cold posterior effect in FCNNs, but slightly increase the cold posterior effect in ResNets.
연구 동기 및 목표
- 현대 신경망에서 실제 가중치 분포를 반영하는 베이지안 사전을 고무한다.
- SGD로 학습된 FCNN, CNN, ResNet 전반의 경험적 가중치 분포를 특징짓는다.
- 경험적 발견에 따라 정보화된 대안 사전(헤비테일, 상관된 가우시안)을 제안하고 평가한다.
- 다양한 사전이 예측 성능 및 콜드 포스터 효과에 미치는 영향을 평가한다.
- 다양한 사전으로 베이지안 NN 추론을 용이하게 하는 재사용 가능한 PyTorch 라이브러리를 제공한다.
제안 방법
- 등방성 가우시안 사전과 함께 헤비테일( Laplace, Student-t ) 및 상관 Gaussian 사전을 비교한다.
- MNIST와 CIFAR-10에서 SGD로 학습된 FCNN, CNN, ResNet의 가중치 분포를 실증적으로 분석한다.
- SGD 해 solutions에 분포를 맞추고 꼬리 거동 및 CNN 필터 내 공간 상관을 점검한다.
- 다른 사전 하에서 포스트eriors를 근사하기 위해 기울기 안내 몬테카를로(SG-MCMC)와 순환 학습률을 사용한다.
- 사전 및 아키텍처 전반에 걸친 예측 성능, 보정 및 OOD 탐지를 평가한다.
- 베이지안 NN 추론의 사전을 위한 공개 PyTorch 라이브러리를 제공한다.
실험 결과
연구 질문
- RQ1SGD로 학습된 FCNN, CNN 및 ResNet이 대안적 사전을 고무하는 비가우시안 가중치 분포를 보이는가?
- RQ2CNN의 공간 상관과 같은 아키텍처 특유의 가중치 상관 구조가 사전에 반영되어야 하는가?
- RQ3헤비테일 또는 상관된 사전이 등방성 가우시안 사전에 비해 베이지안 NN 성능을 향상시키는가?
- RQ4선택된 사전이 FCNN, CNN 및 ResNet 전반에서 콜드 포스터 효과에 어떤 영향을 주는가?
- RQ5데이터 증강이 사전 오정의와 상호작용하여 포스트eriors 추론에 영향을 주는가?
주요 결과
- FCNN 가중치는 헤비테일한 경향이 있으며, 성능 향상을 위해 헤비테일한 사전으로 더 잘 포착된다.
- CNN 및 ResNet 가중치는 합성곱 필터 내에서 상당한 공간 상관을 보인다.
- 헤비테일한 사전은 베이지안 FCNN 성능을 향상시키고 FCNN에서 콜드 포스터 효과를 감소시킨다.
- 상관 Gaussian 사전은 등방성 사전에 비해 베이지안 CNN과 ResNet의 성능을 향상시키지만, 효과는 아키텍처와 작업에 따라 콜드 포스터에 차이가 있다.
- FCNN에서 헤비테일한 사전은 콜드 포스터 효과를 완화시킬 수 있는 반면, ResNet의 경우 일부 데이터셋에서 상관 사전에 의해 효과가 강화될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.