Skip to main content
QUICK REVIEW

[論文レビュー] Variational Memory Addressing in Generative Models

Jörg Bornschein, Andriy Mnih|arXiv (Cornell University)|Sep 21, 2017
Topic Modeling参考文献 21被引用数 20
ひとこと要約

本稿では、生成モデルにおける変分的メモリアドレッシング機構を提案する。この機構は、非パrametricなメモリバッファに対する確率的離散アドレッシングとしてメモリリード操作を扱い、変分推論を用いた有効な訓練を可能にする。メモリアドレスを潜在変数としてモデル化し、ターゲットガイドドアテンションを用いることで、大規模なメモリバンクでさえも、ロバストな少サンプル生成と推論を実現する。Omniglotデータセットではソフトアテンションベースラインを上回り、温度アニーリングを用いずに安定した性能を維持する。

ABSTRACT

Aiming to augment generative models with external memory, we interpret the output of a memory module with stochastic addressing as a conditional mixture distribution, where a read operation corresponds to sampling a discrete memory address and retrieving the corresponding content from memory. This perspective allows us to apply variational inference to memory addressing, which enables effective training of the memory module by using the target information to guide memory lookups. Stochastic addressing is particularly well-suited for generative models as it naturally encourages multimodality which is a prominent aspect of most high-dimensional datasets. Treating the chosen address as a latent variable also allows us to quantify the amount of information gained with a memory lookup and measure the contribution of the memory module to the generative process. To illustrate the advantages of this approach we incorporate it into a variational autoencoder and apply the resulting model to the task of generative few-shot learning. The intuition behind this architecture is that the memory module can pick a relevant template from memory and the continuous part of the model can concentrate on modeling remaining variations. We demonstrate empirically that our model is able to identify and access the relevant memory contents even with hundreds of unseen Omniglot characters in memory

研究の動機と目的

  • メモリアドレッシングを確率的潜在変数として扱うことで、生成モデルにおける効果的なメモリリtrievalの課題に取り組む。
  • ターゲット情報を活用して正確なメモリ参照を実現する変分推論を用いて、メモリアググゲーテッド生成モデルの訓練を可能にする。
  • 2500以上のエントリを含む大規模なメモリバンクに対しても、性能劣化を伴わずにスケーラブルに拡張可能なモデルを実現する。
  • 離散アドレス上のKLダイバージェンスを用いて、メモリ参照からの情報量の増加を定式化し、メモリの寄与度を測定する原理的かつ整合性のある手法を提供する。
  • 特にメモリコンテンツが重複せず、補間不能な状況下でも、離散的メモリアドレッシングが少サンプル生成タスクにおいて有効であることを示す。

提案手法

  • モデルは、離散アドレス変数 a がメモリコンテンツ m_a を選択し、その m_a が生成のための連続的潜在変数 z を条件づける、条件付き混合分布としてメモリリードを解釈する。
  • アドレスの推論には変分近似 q(a|x) を用い、入力 x とメモリコンテンツ間の類似度測度に基づく学習済み類似度関数を用いてアドレス上のアテンション分布を計算する。
  • アモアタイズド変分推論を用いてメモリアドレッシングモジュールを訓練し、確率的アドレス選択を経由した勾配ベース最適化を可能にする。
  • 生成モデルは p(x|m_a, z) として構造化され、サンプリングされたアドレス a に基づいて m_a がメモリから取得され、z は残差変動をモデル化する連続的潜在変数である。
  • 近似事後分布 q(a|x) と事前分布 p(a) 間のKLダイバージェンスを正則化項として用い、メモリ使用量の意味のある測定値を提供する。
  • K個の事後サンプルを用いたトレーニング時のハードアテンション(サンプリング)をサポートし、大規模なメモリサイズであってもスケーラブルかつ安定した最適化を実現する。

実験結果

リサーチクエスチョン

  • RQ1離散的かつ確率的なメモリアドレッシングは、少サンプル学習におけるメモリアググゲーテッド生成モデルの精度とロバスト性を向上させ得るか?
  • RQ2離散的メモリアドレッシングにおける変分推論は、ソフトアテンション機構と比較して、スケーラビリティと性能の面で優れているか?
  • RQ3離散的アドレッシング変数上のKLダイバージェンスは、メモリ使用量とモデル挙動の信頼性のある指標として機能するか?
  • RQ4トレーニング時に見未曾る多数の未学習メモリエントリを含む状況でも、モデルは高い性能を維持できるか?
  • RQ5温度アニーリングやアーキテクチャの変更なしに、重複せず補間不能なメモリコンテンツに対しても、モデルは効果的に一般化できるか?

主な発見

  • 16クラスのメモリを用いた5ウェイ1ショットOmniglotタスクにおいて、本モデルは89.6%の少サンプル分類精度を達成し、4クラスを超えると急激に性能が低下するソフトアテンションベースラインを上回る。
  • テスト時に2500のメモリエントリを用いた場合、トレーニング時に32エントリしか学習していないモデルでも、強力なゼロショット転送とスケーラビリティを示す。
  • 温度アニーリングを用いずに高い性能を維持する。p(a) と q(a|x) の相互作用により、探索と活用のバランスが自然に保たれる。
  • Omniglotデータセットでは、q(a|x) を用いた推論において、5ウェイ1ショット分類で91%、5ショット分類で97%の精度を達成する。
  • 離散的アドレス変数上のKLダイバージェンスは直感的な挙動を示す:MNISTでは異なる成分が少ないため低値、Omniglotでは多数の異なる成分があるため高値となり、効果的なメモリ使用を示唆する。
  • ハードアテンション実装は、M ≥ 48エントリの時点で、パラメータ更新あたりの計算オーバーヘッドが低いため、ソフトアテンションベースラインを上回る速度を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。