QUICK REVIEW

[論文レビュー] Discrete Autoencoders for Sequence Models

Łukasz Kaiser, Samy Bengio|arXiv (Cornell University)|Jan 29, 2018

Generative Adversarial Networks and Image Synthesis参考文献 8被引用数 35

ひとこと要約

本稿では、入力系列を改善された意味的ハッシュ化技術を用いて離散的潜在空間に圧縮する離散オートエンコーダを提案する。この手法により、冷却や追加の損失項を必要とせず、離散変数を通過する勾配伝搬が可能となる。新しい定量的指標において50%を超える効率性を達成し、潜在コードのサンプリングとその後のビームサーチを組み合わせることで、多様で意味的に整合性のあるテキスト生成が可能となる。

ABSTRACT

Recurrent models for sequences have been recently successful at many tasks, especially for language modeling and machine translation. Nevertheless, it remains challenging to extract good representations from these models. For instance, even though language has a clear hierarchical structure going from characters through words to sentences, it is not apparent in current language models. We propose to improve the representation in sequence models by augmenting current approaches with an autoencoder that is forced to compress the sequence through an intermediate discrete latent space. In order to propagate gradients though this discrete representation we introduce an improved semantic hashing technique. We show that this technique performs well on a newly proposed quantitative efficiency measure. We also analyze latent codes produced by the model showing how they correspond to words and phrases. Finally, we present an application of the autoencoder-augmented model to generating diverse translations.

研究の動機と目的

系列モデルにおける意味的な離散表現の学習という課題に取り組むこと、特に階層的構造を持つ自然言語に対して。
冷却や補助損失を必要とせず、離散的潜在変数を通過する勾配バックプロパゲーションを可能にする微分可能な離散オートエンコーダの開発。
系列モデルにおける離散オートエンコーダの評価に適した新しい定量的効率指標の提案。
学習済みの離散的潜在コードからのサンプリングとその後のビームサーチにより、多様で意味的に整合性のあるテキスト生成を実現すること。

提案手法

改善された意味的ハッシュ化技術を用いる：連続ベクトル v に対して、学習時に固定のガウスノイズを追加し、飽和シグモイド関数を適用して二値ベクトル vd を生成する。
フォワードパスでは、ソフトシグモイド（v1）とハード二値ベクトル（v2）を交互に使用することで、学習の安定化を図る。
バックワードパスでは、フォワードパスでハードバージョン（v2）が使用されたとしても、常にソフトバージョン（v1）を通じて勾配が流れ込むよう、ストレートスラッシュ勾配トリックを用いる。
離散的潜在コード c(s) は、入力系列 s を学習済みの語彙からの離散的記号に K 倍短縮した系列に圧縮することで生成される。
モデルは、c(s) と s の連結に対する perplexity を最小化するように訓練され、元の系列を再構築するための条件付き言語モデルを用いる。
デコード時には、潜在コード上で別個の言語モデルから c(s) をサンプリングし、その後、サンプルされた c(s) を条件として元の系列モデル上でビームサーチを実行することで、多様な出力を得る。

実験結果

リサーチクエスチョン

RQ1離散変数の微分不能性にもかかわらず、勾配ベース最適化のみを用いて離散オートエンコーダを系列モデルで効果的に学習できるか？
RQ2圧縮効率と再構築品質の両方を反映するように、離散オートエンコーダの性能を定量的に測定する方法は何か？
RQ3学習済みの離散的潜在コードは、語やフレーズといった意味的な単位に対応していると解釈できるか？
RQ4潜在コードからのサンプリングとその後のビームサーチ生成により、ニューラル機械翻訳において多様で意味的に整合性のある出力を得られるか？

主な発見

提案された改善された意味的ハッシュ化技術は、新しい定量的指標において50%を超える効率性を達成し、同じ設定下でGumbel-Softmaxを上回った。
モデルが学習した潜在コードは、解釈可能性解析により、語やフレーズといった意味的な単位に対応していることが示された。
潜在コードからのサンプリングと、その後の元の系列モデルにおけるビームサーチを組み合わせることで、意味を保ちつつ多様な翻訳が得られ、標準的なビームサーチや純粋なサンプリングで見られる繰り返しや低多様性の問題を回避した。
本手法により、マルチスケール生成モデルのエンドツーエンド学習が可能となり、高レベルの離散的アクションを用いた計画が可能になるため、強化学習への応用の可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。