Skip to main content
QUICK REVIEW

[論文レビュー] Learning Wake-Sleep Recurrent Attention Models

Jimmy Ba, Roger Grosse|arXiv (Cornell University)|Sep 22, 2015
Multimodal Machine Learning Applications参考文献 29被引用数 22
ひとこと要約

本稿では、再重み付けwake-sleep学習と制御変数を用いて、事後分布推論の改善と勾配の分散低減を図ることで、確率的ハードアテンションネットワークの学習を向上させるWS-RAM(Wake-Sleep再帰的アテンションモデル)を提案する。この手法は、変分推論と同等の性能を達成しつつ、著しく高速な学習を実現し、画像分類およびキャプション生成タスクにおいて最先端の効率性を示している。

ABSTRACT

Despite their success, convolutional neural networks are computationally expensive because they must examine all image locations. Stochastic attention-based models have been shown to improve computational efficiency at test time, but they remain difficult to train because of intractable posterior inference and high variance in the stochastic gradient estimates. Borrowing techniques from the literature on training deep generative models, we present the Wake-Sleep Recurrent Attention Model, a method for training stochastic attention networks which improves posterior inference and which reduces the variability in the stochastic gradients. We show that our method can greatly speed up the training time for stochastic attention networks in the domains of image classification and caption generation.

研究の動機と目的

  • 確率的ハードアテンションモデルの学習に直面する課題、すなわち事後分布推論の非可解性と高分散勾配に対処すること。
  • 画像分類およびキャプション生成タスクにおける性能を損なわず、アテンションベースのモデルの学習効率を向上させること。
  • 推論ネットワーク、再重み付けwake-sleep学習、制御変数による分散低減を統合した統一された学習手順を開発すること。
  • 従来の変分ベースラインと比較して、より速い収束とより良い探索が可能になるように、アテンションポリシー学習を改善すること。

提案手法

  • WS-RAMは、アテンションポリシーをモデル化する生成ネットワークと、グリムップ位置の事後分布を近似する別個の推論ネットワークを用い、学習中にラベルにアクセス可能である。
  • 生成ネットワークと推論ネットワークを同時に学習するために、再重み付けwake-sleepアルゴリズムを適用し、反復的精錬によって事後分布の近似を改善する。
  • 学習中に非可解な事後分布期待値を推定するために、推論ネットワークからの提案分布を用いた重要度サンプリングを用いる。
  • 勾配推定の分散低減のため、制御変数を導入し、収束を加速する。
  • 特に変分ベースラインで局所最適解に早期収束するのを防ぐために、探索ヒューリスティクスを組み込む。
  • 重要度サンプリングと制御変数から得られる勾配推定を用いて、確率的バックプロパゲーションによりエンドツーエンドでモデルを学習する。

実験結果

リサーチクエスチョン

  • RQ1再重み付けwake-sleep手法は、確率的ハードアテンションモデルにおける事後分布推論を改善できるか?
  • RQ2制御変数の使用は、アテンションモデル学習における勾配分散を顕著に低減するか?
  • RQ3WS-RAMは、著しく高速な学習時間を実現しつつ、変分推論と同等の性能を達成できるか?
  • RQ4ラベルへのアクセスを持つ推論ネットワークの導入は、アテンションポリシー学習にどのような影響を与えるか?
  • RQ5探索ヒューリスティクスは、確率的アテンションモデルにおける学習安定性と収束性をどの程度向上させるか?

主な発見

  • 1000万回の更新後、翻訳・スケーリングされたMNISTデータセットにおいて、WS-RAMはテスト誤差率1.62%を達成し、変分ベースライン(3.11%)および制御変数なしのアブレーション版WS-RAM(1.85%)を上回った。
  • WS-RAMは変分ベースラインと比較して、MNISTおよびFlickr8kの両方の学習曲線から示されるように、著しく短縮された学習時間で、同程度の性能を達成した。
  • 制御変数の使用により、ベースライン手法と比較して勾配分散が40〜50%低減された。これは、勾配分散推定値の低さと重要度サンプリングにおける有効サンプルサイズ(ESS)の向上によって裏付けられた。
  • 推論ネットワークは事後分布の近似を改善したが、これは必ずしもESSの上昇に繋がらず、分散低減の主な要因は制御変数であることが示唆された。
  • 変分ベースラインとは異なり、WS-RAMは局所最適解に陥るのを防ぐために探索ヒューリスティクスを必要としなかった。
  • Flickr8kデータセットでは、WS-RAMはBLEU-1、BLEU-2、BLEU-3、BLEU-4スコアをそれぞれ61.1、40.4、26.9、17.8を達成し、変分手法の性能(62.3、41.6、26.9、17.2)と同等であったが、より高速な学習を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。