Skip to main content
QUICK REVIEW

[論文レビュー] Cyclical Stochastic Gradient MCMC for Bayesian Deep Learning

Ruqi Zhang, Chunyuan Li|arXiv (Cornell University)|Feb 11, 2019
Machine Learning and Algorithms参考文献 57被引用数 75
ひとこと要約

この論文は循環的 SG-MCMC (cSG-MCMC) を循環的ステップサイズスケジュールとともに提案し、 Bayesian deep learning における多峰後方分布を自動的に探索し、非漸近的収束理論と ImageNet を含む広範な実験を提供します。

ABSTRACT

The posteriors over neural network weights are high dimensional and multimodal. Each mode typically characterizes a meaningfully different representation of the data. We develop Cyclical Stochastic Gradient MCMC (SG-MCMC) to automatically explore such distributions. In particular, we propose a cyclical stepsize schedule, where larger steps discover new modes, and smaller steps characterize each mode. We also prove non-asymptotic convergence of our proposed algorithm. Moreover, we provide extensive experimental results, including ImageNet, to demonstrate the scalability and effectiveness of cyclical SG-MCMC in learning complex multimodal distributions, especially for fully Bayesian inference with modern deep neural networks.

研究の動機と目的

  • 神経ネットワークの重みの不確実性を定量化する principled アプローチとしてベイズ深層学習を動機づける。
  • 高い多峰性の重み後方分布を効率的に探索する循環的ステップサイズ SG-MCMC 法を開発する。
  • 循環的スケジュール下での非漸近的収束に関する理論的保証を提供する。
  • ImageNet などの大規模実験と不確実性推定を通じて cSG-MCMC の拡張性と有効性を示す。

提案手法

  • 探索と局所サンプリングのために大きなステップと小さなステップを交互に行う循環的コサインステップサイズスケジュールを SG-MCMC に提案する。
  • 探索(大きなステップ、高い摂動)とサンプリング(小さなステップ、局所密度推定)の二段階手順を導入する。
  • 探索とサンプリングを調整する系統温度を用い、T=0 をバーンイン、T=1 をサンプリングとし、各サイクル内で段階を切り替えるベータ閾値を用いる。
  • 探索を大きなステップで現在のモードを回避する定期的なウェームリスタートとして扱う。
  • サイクル間での情報を組み合わせる重み付きサンプル結合スキームを提供する。

実験結果

リサーチクエスチョン

  • RQ1循環的 SG-MCMC は現代のニューラルネットワークの多峰性の重み後方分布を効果的に探索・特徴付けできるか?
  • RQ2循環的スケジュールは従来の減少ステップ SG-MCMC と比べて混合と不確実性推定を改善するか?
  • RQ3循環的ステップサイズの下での cSG-MCMC の理論的(非漸近的)収束保証は何か?
  • RQ4ImageNet などの大規模タスクおよび不確実性定量化タスクでの cSG-MCMC の性能はどうか?

主な発見

  • cSG-MCMC は循環を用いて多峰分布の複数のモードを探索・特徴付けを行い、モード探索で従来の SGLD を上回る。
  • CIFAR-10/100 で ResNet-18 を用いた場合、循環法は従来の SG-MCMC や Snapshot Ensemble よりもテスト誤差が小さく、多様性が向上する。
  • ImageNet(ResNet-50)では、cSG-MCMC が試験された手法の中で最も低い予測 NLL を達成し、不確実性モデリングが強いことを示す。
  • 可視化により cSG-MCMC の重み空間サンプルが複数のクラスターを形成し、多様なモードを探索していることを示す。
  • notMNIST での不確実性評価において、cSG-MCMC はより多くの重み空間モードを探索することでより適切に較正された予測不確実性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。