QUICK REVIEW

[논문 리뷰] Practical Deep Learning with Bayesian Principles

Kazuki Osawa, Siddharth Swaroop|arXiv (Cornell University)|2019. 06. 06.

Domain Adaptation and Few-Shot Learning참고 문헌 50인용 수 50

한 줄 요약

이 논문은 Variational Inference를 자연-그래디언트 방법(VOGN)으로 적용하여 딥 네트워크를 실용적으로 학습시키고 CIFAR-10 및 ImageNet에서 Adam/SGD와 경쟁력 있는 성능을 달성하는 동시에 보베esian 혜택인 보정된 예측, 향상된 OOD 불확실성 및 지속적 학습 같은 이점을 보존한다.

ABSTRACT

Bayesian methods promise to fix many shortcomings of deep learning, but they are impractical and rarely match the performance of standard methods, let alone improve them. In this paper, we demonstrate practical training of deep networks with natural-gradient variational inference. By applying techniques such as batch normalisation, data augmentation, and distributed training, we achieve similar performance in about the same number of epochs as the Adam optimiser, even on large datasets such as ImageNet. Importantly, the benefits of Bayesian principles are preserved: predictive probabilities are well-calibrated, uncertainties on out-of-distribution data are improved, and continual-learning performance is boosted. This work enables practical deep learning while preserving benefits of Bayesian principles. A PyTorch implementation is available as a plug-and-play optimiser.

연구 동기 및 목표

실용적인 베이지안 딥러닝의 확장성과 성능 격차를 해소하며 동기를 부여하고 가능하게 한다.
자연-그래디언트 VARIATIONAL INFERENCE(VI) (VOGN)가 표준 딥러닝 트릭(배치 정규화, 데이터 증강, 분산 학습)을 사용하여 대형 네트워크를 효율적으로 학습시킬 수 있음을 보여준다.
보존된 베이지안 혜택: 보정된 예측 확률, 향상된 OOD 불확실성, 그리고 향상된 지속학습 동작을 보여준다.
다양한 아키텍처와 데이터세트(CIFAR-10, ImageNet) 전반에 걸쳐 실증적 증거를 제공하여 비베이지안 베이스라인과의 경쟁력 있는 성능을 입증한다.

제안 방법

Gaussian posterior q(w)를 갖는 베이지안 추론으로 딥러닝을 베이지안 추론으로 공식화한다.
VI에 자연-그래디언트 업데이트를 사용하여 SG/DL 옵티마이저와 형태가 비슷한 업데이트를 얻는다(VOGN).
수렴 가속화를 위해 배치 정규화, 데이터 증강, 모멘텀, 분산 학습을 도입한다.
실용적인 2차 VI 방법을 얻기 위한 Gauss-Newton 기반 분산 업데이트(diagonal Sigma)를 채택한다.
베이지안 학습의 효과적 데이터세트 크기를 보완하기 위해 데이터 증강 스케일링(rho)을 도입한다.
데이터 및 MC 샘플 병렬화를 결합한 분산 학습 체계를 제시하여 ImageNet까지 확장한다.

실험 결과

연구 질문

RQ1자연-그래디언트 변분 추론(VOGN)이 대규모 데이터셋에서 Adam/SGD와 비교할 만한 성능으로 딥 네트워크를 대규모로 학습시킬 수 있는가?
RQ2VOGN을 통한 베이지안 포스트리어 추정이 보정된 예측과 개선된 OOD 불확실성을 제공하면서도 실용적인 학습 동역학을 보존하는가?
RQ3일련의 작업에서 베이지안 원칙이 지속 학습 및 지식 보유에 미치는 영향은 무엇인가?
RQ4표준 딥러닝 기법(배치 노름, 데이터 증강, 분산 학습)이 VI와 상호 작용하여 실용적인 베이지안 딥러닝을 제공하는가?
RQ5VOGN을 전통적 옵티마이저 및 MC-드롭아웃과 비교할 때 속도, 보정, 불확실성 품질의 트레이드오프는 무엇인가?

주요 결과

데이터세트/아키텍처	옵티마이저	Train/Validation Accuracy (%)	Validation NLL	에폭	Time/epoch (s)	ECE	AUROC
CIFAR-10/ LeNet-5 (no DA)	Adam	71.98 / 67.67	0.937	210	6.96	0.021	0.794
CIFAR-10/ LeNet-5 (no DA)	BBB	66.84 / 64.61	1.018	800	11.43	0.045	0.784
CIFAR-10/ LeNet-5 (no DA)	MC-dropout	68.41 / 67.65	0.990	210	6.95	0.087	0.797
CIFAR-10/ AlexNet (no DA)	Adam	100.0 / 67.94	2.83	161	3.12	0.262	0.793
CIFAR-10/ AlexNet (no DA)	MC-dropout	97.56 / 72.20	1.077	160	3.25	0.140	0.818
CIFAR-10/ AlexNet	VOGN	81.15 / 75.48	0.703	160	10.02	0.016	0.832
CIFAR-10/ ResNet-18	Adam	97.74 / 86.00	0.550	160	11.97	0.082	0.877
CIFAR-10/ ResNet-18	MC-dropout	88.23 / 82.85	0.510	161	12.51	0.166	0.768
CIFAR-10/ ResNet-18	VOGN	91.62 / 84.27	0.477	161	53.14	0.040	0.876
ImageNet/ ResNet-18	SGD	82.63 / 67.79	1.38	90	44.13	0.067	0.856
ImageNet/ ResNet-18	Adam	80.96 / 66.39	1.44	90	44.40	0.064	0.855
ImageNet/ ResNet-18	MC-dropout	72.96 / 65.64	1.43	90	45.86	0.012	0.856
ImageNet/ ResNet-18	OGN	85.33 / 65.76	1.60	90	63.13	0.128	0.854
ImageNet/ ResNet-18	VOGN	73.87 / 67.38	1.37	90	76.04	0.029	0.854

VOGN은 CIFAR-10 및 ImageNet에서 여러 아키텍처에 걸쳐 Adam/SGD와 유사한 수렴 및 성능을 달성한다.
VOGN은 비베이지안 방법과 비교해 잘 보정된 예측 확률과 향상된 불확실성을 제공한다.
배치 정규화 및 데이터 증강과 함께 VOGN은 대규모 작업에서 표준 옵티마이저의 속도/에폭과 일치하지만 VI 계산으로 인해 에폭당 비용이 더 높다.
BBB 및 MC-드롭아웃과 비교하여 VOGN은 특히 ImageNet 및 ResNet-18에서 보정이 더 잘 되고 과신이 낮은 경향이 있다.
지속 학습 작업에서 VOGN은 정확도 면에서 기존 베이지안 지속 학습 방법(VCL 등)과 대등하거나 더 나은 성능을 보이고 일부 설정에서 작업당 학습 속도가 더 빠르다.
표 1은 CIFAR-10(LeNet-5, AlexNet, ResNet-18) 및 ImageNet(ResNet-18)에서 VOGN이 Adam, SGD, MC-dropout, OGN, K-FAC, Noisy K-FAC에 비해 경쟁력 있거나 최상위의 지표를 달성했음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.