[論文レビュー] Differentiable PAC–Bayes Objectives with Partially Aggregated Neural Networks
本稿では、確率的ニューラルネットワークにおける部分的集約モンテカルロ推定器を導入し、微分不能な符号出力ネットワークにおける低分散勾配推定を可能にする。非近似損失を用いずに、元の一般化境界を保ったまま、直接微分可能なPAC-Bayesian目的関数を導出する。これは、類似ネットワークにおいてLetarteら(2019)の2倍のタイトな境界を達成する。パスワイズ勾配による安定な学習が可能である。
We make two related contributions motivated by the challenge of training stochastic neural networks, particularly in a PAC–Bayesian setting: (1) we show how averaging over an ensemble of stochastic neural networks enables a new class of partially-aggregated estimators, proving that these lead to unbiased lower-variance output and gradient estimators; (2) we reformulate a PAC–Bayesian bound for signed-output networks to derive in combination with the above a directly optimisable, differentiable objective and a generalisation guarantee, without using a surrogate loss or loosening the bound. We show empirically that this leads to competitive generalisation guarantees and compares favourably to other methods for training such networks. Finally, we note that the above leads to a simpler PAC–Bayesian training scheme for sign-activation networks than previous work.
研究の動機と目的
- 微分不能な活性化関数(例:sign)を伴うPAC-Bayesianフレームワークにおける確率的ニューラルネットワークの学習課題に対処すること。特に、REINFORCEやナードなモンテカルロ法に比べて高分散勾配推定が生じる問題を解決すること。
- PAC-Bayesian境界と最適化目的関数のギャップを埋めるために、元の境界のタイトさを保ちつつ、直接最適化可能で微分可能な目的関数を導出すること。
- 集約を用いたPAC-Bayesian境界の再定式化により、非近似損失や緩められた境界を避けることで、一般化保証を向上させること。
- 深層確率的ネットワークにおける解析的取り扱いやすさと計算可能性のバランスを取る、部分的集約推定器の新クラスを構築すること。
提案手法
- 複数の順方向伝搬における出力の平均化を維持しつつ、パスワイズ勾配推定を保ったまま、部分的集約モンテカルロ推定器を提案。REINFORCE やナードなモンテカルロ法に比べ、分散を低減する。
- Catoni(2007)の境界定式化と集約を組み合わせることで、符号出力ネットワークの新しいPAC-Bayesian境界を導出。境界は直接最適化可能で微分可能であることを保証する。
- 線形損失の線形性とジェンセンの不等式を用いて、予測誤差損失の期待値とQ集約予測子の損失を等価にし、微分不能な符号活性化関数がある中でも微分可能性を実現する。
- 2つの訓練目的関数を導入:固定正則化パラメータを用いる「fix-λ」と、境界を介してλを自動的にチューニングする「optim-λ」。これにより、適応的正則化が可能になる。
- パrameter分布の標準化(例:z = (θ - μ)/σ)により、パスワイズ勾配推定を採用。これにより、微分不能な出力関数であっても低分散勾配が得られる。
- 全結合ニューラルネットワーク(符号、シグモイド、ReLU活性化関数を併用)に本フレームワークを適用。パrameterの不確実性を表現するため、等方的正規事前分布と事後分布を用いる。
実験結果
リサーチクエスチョン
- RQ1部分的集約推定器は、REINFORCE やナードなモンテカルロ法に比べ、微分不能な符号出力ニューラルネットワークにおける勾配分散を低減できるか?
- RQ2非近似損失や境界の緩和を用いずに、符号出力ネットワークのPAC-Bayesian境界を直接微分可能な目的関数に再定式化できるか?
- RQ3提案手法は、類似ネットワークアーキテクチャにおいて、先行研究(特にLetarteら(2019))に比べ、よりタイトな一般化保証を達成できるか?
- RQ4「optim-λ」目的関数は、手動でのハイパーパramータチューニングなしに、学習中に正則化強度を自動でチューニングでき、一般化性能を向上できるか?
主な発見
- 提案された部分的集約推定器は、微分不能な符号出力ニューラルネットワークにおいて、REINFORCE やナードなモンテカルロ法に比べ、低分散勾配推定を達成する。
- 導出されたPAC-Bayesian目的関数は直接微分可能であり、同じネットワークタイプにおいてLetarteら(2019)の2倍のタイトな一般化境界を達成する。
- バイナリ-MNISTでは、「optim-λ」目的関数がテスト0-1誤差5.61%、非自明な境界16.0%(δ=0.05)を達成。境界のタイトさにおいて、ベースラインのPBGNetモデルを上回った。
- λ = m = 60,000の「fix-λ」目的関数は、テスト0-1誤差5.41%、境界16.0%を達成。安定な学習を示し、競争力のある性能を示した。
- 本手法により、従来は高分散勾配のため困難であった、深層で多層的な微分不能ニューラルネットワークのPAC-Bayesian設定下での学習が可能になった。
- 理論的境界がタイトである一方で、非確率的ReLU MLPベースラインは1.82%の低いテスト誤差を達成しており、一般化境界と実際の性能のギャップが顕在化した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。