[논문 리뷰] Bayesian Recurrent Neural Networks
본 논문은 Bayes by Backprop를 RNNs에 적용하고 posterior sharpening를 도입하며 불확실성 추정치를 갖춘 언어 모델링 및 이미지 캡션 생성에서 향상된 성능을 보인다.
In this work we explore a straightforward variational Bayes scheme for Recurrent Neural Networks. Firstly, we show that a simple adaptation of truncated backpropagation through time can yield good quality uncertainty estimates and superior regularisation at only a small extra computational cost during training, also reducing the amount of parameters by 80\%. Secondly, we demonstrate how a novel kind of posterior approximation yields further improvements to the performance of Bayesian RNNs. We incorporate local gradient information into the approximate posterior to sharpen it around the current batch statistics. We show how this technique is not exclusive to recurrent neural networks and can be applied more widely to train Bayesian neural networks. We also empirically demonstrate how Bayesian RNNs are superior to traditional RNNs on a language modelling benchmark and an image captioning task, as well as showing how each of these methods improve our model over a variety of other schemes for training them. We also introduce a new benchmark for studying uncertainty for language models so future methods can be easily compared.
연구 동기 및 목표
- 가중치 불확실성을 포착하기 위해 RNNs를 훈련시키기 위한 간단한 variational Bayes 체계(BBB)를 도입한다.
- KL 정규화와 함께 포스트eriore 추정치를 얻기 위해 truncated backpropagation through time를 수정한다.
- gradient 정보를 사용하여 배치별로 사후를 국소적으로 적응시키는 posterior sharpening을 제안한다.
- 언어 모델링 및 이미지 캡션 생성 작업에서 전통적 정규화보다 향상된 성능을 입증한다.
- 언어 모델의 불확실성에 대한 새로운 벤치마크를 제공한다.
제안 방법
- Bayes by Backprop를 RNNs에 적용하여 대각 공분산을 가진 가우시안 포스터리어에서 가중치를 샘플링한다.
- truncated BPTT와 KL 비용을 미니배치와 시퀀스 절단에 분배하며 변분 자유에너지를 도출한다.
- 배치 gradient 정보를 활용하여 theta를 조정하는 계층적 포스터리어 q(theta|varphi,(x,y))를 소개한다.
- theta = varphi - eta * grad_theta log p(y|varphi,x)로 sharpened posterior q(theta|varphi,(x,y))를 매개변수화하고 eta를 학습한다.
- Monte Carlo 추정치를 사용하여 KL 정규화 항을 학습 목표에 포함한다.
- 언어 모델링(Penn Treebank) 및 이미지 캡션 생성(MSCOCO) 벤치마크에서 baseline 정규화 기법보다 개선을 입증한다.
실험 결과
연구 질문
- RQ1표준 정규화와 비교하여 RNN에 Bayes by Backprop를 적용하면 예측 성능과 모델 보정이 향상되는가?
- RQ2posterior sharpening이 그래디언트 분산을 줄이고 베이지안 RNN의 학습을 개선할 수 있는가?
- RQ3기존의 베이지안 및 비베이지안 방법과 비교하여 언어 모델링 및 이미지 캡션 생성 작업에서 Bayesian RNN은 어떻게 수행하는가?
- RQ4외분포(out-of-distribution) 데이터에서 Bayesian RNN의 불확실성 특성은 어떠한가?
- RQ5제안된 방법이 RNN을 넘는 다른 신경망 구조에 일반화될 수 있는가?
주요 결과
- BBB를 활용한 Bayesian RNN이 Penn Treebank에서 dropout 기반선과 비교해 경쟁력 있는 perplexity를 달성한다.
- posterior sharpening은 표준 BBB에 비해 perplexity를 더 낮추고 보정을 향상시킨다.
- BBB는 MSCOCO의 Show and Tell baseline에 비해 이미지 캡션 지표(BLUE-4, CIDEr)를 향상시킨다.
- 가중치 가지치기로 많은 가중치를 제거해도 성능에 미치는 영향이 제한적임을 보인다(약 80%).
- BBB는 보정(reflect calibration)을 반영하는 불확실성 추정치를 제공하며, 엔트로피 기반 분석에서 MC-Dropout을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.