QUICK REVIEW

[논문 리뷰] Learnable Bernoulli Dropout for Bayesian Deep Learning

Shahin Boluki, Randy Ardywibowo|arXiv (Cornell University)|2020. 02. 12.

Gaussian Processes and Bayesian Inference참고 문헌 51인용 수 20

한 줄 요약

이 논문은 Augment-REINFORCE-Merge (ARM) 기울기 추정기를 통해 미분 가능한 파라미터로 최적화되는 가중치 기반 드롭아웃 비율을 다루는 모델에 종속적이지 않은 드롭아웃 방법인 유연한 베르누이 드롭아웃(LBD)을 제안한다. LBD는 각 뉴런별 적응형 드롭아웃을 가능하게 하여 딥 네트워크에서 불확실성 정량화와 정확도를 향상시키며, 변분 오토에인코더와 결합할 경우 협업 필터링에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

In this work, we propose learnable Bernoulli dropout (LBD), a new model-agnostic dropout scheme that considers the dropout rates as parameters jointly optimized with other model parameters. By probabilistic modeling of Bernoulli dropout, our method enables more robust prediction and uncertainty quantification in deep models. Especially, when combined with variational auto-encoders (VAEs), LBD enables flexible semi-implicit posterior representations, leading to new semi-implicit VAE~(SIVAE) models. We solve the optimization for training with respect to the dropout parameters using Augment-REINFORCE-Merge (ARM), an unbiased and low-variance gradient estimator. Our experiments on a range of tasks show the superior performance of our approach compared with other commonly used dropout schemes. Overall, LBD leads to improved accuracy and uncertainty estimates in image classification and semantic segmentation. Moreover, using SIVAE, we can achieve state-of-the-art performance on collaborative filtering for implicit feedback on several public datasets.

연구 동기 및 목표

고정되거나 수작업으로 조정된 드롭아웃 비율의 한계를 해결함으로써 딥 네트워크의 표현력과 일반화 능력을 제한하는 문제를 해결한다.
연속적 근사(예: 콘크리트 또는 가우시안 분포)에 의존하는 기존의 유연한 드롭아웃 방법의 단점을 극복함으로써 기울기 편향과 계산적 불안정성을 유발하는 문제를 해결한다.
베르누이 드롭아웃의 이산적 성격을 유지하면서도, 완전히 미분 가능한 프레임워크 내에서 드롭아웃 비율을 변분 파라미터로 엔드 투 엔드 학습할 수 있도록 한다.
학습 중에 뉴런별 드롭아웃 확률을 학습함으로써 딥 모델의 불확실성 추정과 강건성을 향상시킨다.
변분 오토에인코더를 통해 비지도 학습으로 프레임워크를 확장함으로써, 더 유연하고 강력한 사후 근사 프레임워크를 제공하는 새로운 반암시적 VAE(SIVAE)를 구축한다.

제안 방법

각 뉴런의 드롭아웃 확률을 미분 가능한 파라미터로 다루는 유연한 베르누이 드롭아웃(LBD) 모듈을 제안하며, 이를 네트워크 가중치와 함께 공동 최적화한다.
이진 드롭아웃 마스크를 통해 편향이 없고 분산이 낮은 기울기를 계산하기 위해 Augment-REINFORCE-Merge(ARM) 기울기 추정기를 사용하여 이산 변수를 통한 역전파를 가능하게 한다.
LBD를 변분 베이지안 근사로 공식화하여, 베르누이 분포를 연속적 근사로 대체하지 않고도 깊이 있는 네트워크에서의 탄력적인 사후 추론을 가능하게 한다.
LBD를 변분 오토에인코더(VAE)에 통합하여 반암시적 VAE(SIVAE)를 구성함으로써, 드롭아웃 비율을 학습시켜 사후 유연성과 표현 학습을 향상시킨다.
네트워크 가중치와 드롭아웃 파라미터를 함께 최적화하기 위해 ARM 추정기를 사용한 확률적 최적화(예: Adam)로 전체 모델을 훈련시킨다.
감독 학습 과제(이미지 분류, 의미적 세그멘테이션)와 비지도 협업 필터링에 이 방법을 적용하여 다양한 도메인에서의 일반화 능력을 입증한다.

실험 결과

연구 질문

RQ1연속적 근사에 의존하지 않고도 딥 네트워크에서 드롭아웃 비율을 미분 가능한 파라미터로 효과적으로 학습시킬 수 있는가?
RQ2고정되거나 수작업으로 조정된 드롭아웃과 비교해 볼 때, 각 뉴런별 드롭아웃 비율을 학습시킴으로써 정확도와 불확실성 정량화가 향상되는가?
RQ3LBD가 변분 오토에인코더에 효과적으로 통합되어 더 유연하고 강력한 사후 근사 프레임워크를 제공할 수 있는가?
RQ4기존의 유연한 드롭아웃 방법(예: 콘크리트 또는 가우시안 드롭아웃)과 비교했을 때 LBD의 성능과 학습 안정성은 어떠한가?
RQ5SIVAE에서 LBD를 사용할 경우, 암시적 피드백을 사용한 협업 필터링에서 최신 기술 수준의 성능을 달성하는가?

주요 결과

표준 드롭아웃 및 기타 유연한 드롭아웃 방법과 비교해 볼 때, LBD는 이미지 분류 및 의미적 세그멘테이션 과제에서 예측 정확도와 불확실성 정량화를 크게 향상시킨다.
VAE와 결합할 경우, LBD는 암시적 피드백을 사용한 협업 필터링 벤치마크에서 최신 기술 수준의 성능을 달성하는 반암시적 VAE(SIVAE)를 구축할 수 있다.
ML-20M, Netflix, MSD 데이터셋에서 SIVAE+LBD는 VAE, DAE, CDAE, WMF, SLIM 및 콘크리트 또는 가우시안 드롭아웃을 사용한 다른 SIVAE 변종을 포함한 모든 베이스라인보다 뛰어난 성능을 보였다.
LBD의 성능 향상은 뚜렷하다: SIVAE+LBD는 모든 데이터셋에서 Recall@20와 NDCG@20가 최고 수준을 기록했으며, 비유연한 베이스라인 대비 최대 10%의 향상을 보였다.
VAE에서 드롭아웃을 제거하면 성능이 심각하게 떨어지며, 이는 드롭아웃이 VAE 성능에 핵심적임을 확인한다. LBD는 최적의 드롭아웃 비율을 학습함으로써 이 효과를 더욱 강화한다.
ARM를 사용한 LBD는 기울기 편향과 최적화의 열악함으로 인해 성능이 열등한 콘크리트 또는 가우시안 드롭아웃 변종과 비교해도 더 뛰어난 성능을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.