QUICK REVIEW

[論文レビュー] One-Shot Generalization in Deep Generative Models

Danilo Jimenez Rezende, Shakir Mohamed|arXiv (Cornell University)|Mar 16, 2016

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 75

ひとこと要約

本論文は、フィードバックとアテンション機構を活用することで、1つの例を観察した後、一回の試行で多様で現実的な新しい概念のバリエーションを生成できる、順序付き深層生成モデルのクラスを導入する。変分推論と空間変換器、階層的潜在変数を組み合わせることで、画像生成において最先端の性能を達成し、複数のタスクにおいて説得力のあるゼロショットおよびフェイシュート一般化を示している。

ABSTRACT

Humans have an impressive ability to reason about new concepts and experiences from just a single example. In particular, humans have an ability for one-shot generalization: an ability to encounter a new concept, understand its structure, and then be able to generate compelling alternative variations of the concept. We develop machine learning systems with this important capacity by developing new deep generative models, models that combine the representational power of deep learning with the inferential power of Bayesian reasoning. We develop a class of sequential generative models that are built on the principles of feedback and attention. These two characteristics lead to generative models that are among the state-of-the art in density estimation and image generation. We demonstrate the one-shot generalization ability of our models using three tasks: unconditional sampling, generating new exemplars of a given concept, and generating new exemplars of a family of concepts. In all cases our models are able to generate compelling and diverse samples---having seen new examples just once---providing an important class of general-purpose models for one-shot machine learning.

研究の動機と目的

最小限のデータからの人間らしい推論を模倣できる、ワンショット一般化が可能な深層生成モデルの開発。
アテンションとフィードバック機構を組み込むことで、深層生成モデルにおけるデータ効率性の課題に取り組む。
順序付き生成モデルが、1回の観察の後、未観測の概念の多様で妥当なバリエーションを生成できることを示す。
変分オートエンコーダーおよび深層生成モデルの能力を、標準的な密度推定を越えて、類似推論や欠損データ補完を含むものに拡張する。
最小限のインダクティブバイアスと低データ環境下での強力な一般化を備えた、汎用的でスケーラブルな確率的推論フレームワークを提供する。

提案手法

モデルは、潜在変数のグループに対して順次生成プロセスを採用し、フィードバックを通じてデータ表現の段階的改善を可能にする。
空間アテンション機構は、微分可能空間変換器を用いて実装され、エンコーディングおよびデコーディングの過程で関連する画像領域に注目できるようにする。
階層的変分推論フレームワークを用いることで、潜在変数上の複雑な後方分布を近似し、少数の例からの堅牢な推論を可能にする。
モデルは、再パrameterization勾配を用いた確率的バックプロパゲーションにより、変分下界（ELBO）を最大化するようにエンドツーエンドで訓練される。
フィードバックは、モデルが入力の異なる部分に段階的に注目し、再構築することを許容することで実装され、より良い推論のための「思考時間」を模倣する。
マルチモーダルな後方分布近似の使用により、データ内の多様で分離可能な変動要因を捉えることができる。

実験結果

リサーチクエスチョン

RQ1深層生成モデルは、1つの例を観察した後、多様で現実的なバリエーションを生成することでワンショット一般化を達成できるか？
RQ2アテンションとフィードバック機構は、低データ環境下での深層生成モデルの一般化と生成品質をどのように向上させるか？
RQ3階層的潜在変数を備えた順序付き生成モデルは、標準的な変分オートエンコーダーに比べて、画像生成および密度推定においてどの程度優れているか？
RQ4このようなモデルは、新しいデータに対する微調整なしに類似推論や欠損データ補完を実行できるか？
RQ5ワンショット一般化タスクにおいて、モデル容量とデータ効率性のトレードオフはどのようなものか？

主な発見

モデルは、1つの例を観察した後、非常に多様で視覚的に説得力のある新しい概念のサンプルを生成し、強力なワンショット一般化を示している。
1クラスあたり5つのトレーニング例（45-5の分割）でも、トレーニングとテストの対数尤度の差が小さく保たれ、過学習が少なく、良好な一般化が示されている。
新規アルファベット生成タスクでは、1つの例から共通する構造的特徴を的確に推定し、一貫性があり妥当な新しい文字を生成している。
モデルは、条件なしサンプリングにおいても、あらゆるクラスでリアルな画像を生成し、いかなる条件付けも不要である。
空間変換器の使用により、特に低データ環境下で、画像生成および一般化性能が顕著に向上している。
強力な一般化を達成しているが、モデルはワンショット学習を実行していない。これは、推論時にパラメータを更新していないためであり、ワンショット推論のみを実行している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。