QUICK REVIEW

[論文レビュー] LEARNING TO ORGANIZE KNOWLEDGE WITH N-GRAM MACHINES

Fan Yang, Jiazhong Nie|arXiv (Cornell University)|Jan 1, 2017

Topic Modeling被引用数 3

ひとこと要約

本稿では、N-gram マシン（NGM）を提案する。NGM は、知識をコンパクトでインデックス可能な表現に符号化するための、シーケンス・ツー・シーケンス・モデルを用いた記号的ニューラルネットワークフレームワークであり、テキスト長に依存しない効率的な質問応答を可能にする。NGM は、REINFORCE を用いたエンド・ツー・エンド学習と、ビーム探索および自己符号化安定化を用いることで、離散的潜在変数と大規模な探索空間を効果的に管理し、bAbI およびライフ・ロング bAbI タスクで高い精度とスケーラビリティを達成する。

ABSTRACT

Deep neural networks (DNNs) had great success on NLP tasks such as language modeling, machine translation and certain question answering (QA) tasks. However, the success is limited at more knowledge intensive tasks such as QA from a big corpus. Existing end-to-end deep QA models (Miller et al., 2016; Weston et al., 2014) need to read the entire text after observing the question, and therefore their complexity in responding a question is linear in the text size. This is prohibitive for practical tasks such as QA from Wikipedia, a novel, or the Web. We propose to solve this scalability issue by using symbolic meaning representations, which can be indexed and retrieved efficiently with complexity that is independent of the text size. More specifically, we use sequence-to-sequence models to encode knowledge symbolically and generate programs to answer questions from the encoded knowledge. We apply our approach, called the N-Gram Machine (NGM), to the bAbI tasks (Weston et al., 2015) and a special version of them (life-long bAbI) which has stories of up to 10 million sentences. Our experiments show that NGM can successfully solve both of these tasks accurately and efficiently. Unlike fully differentiable memory models, NGM's time complexity and answering quality are not affected by the story length. The whole system of NGM is trained end-to-end with REINFORCE (Williams, 1992). To avoid high variance in gradient estimation, which is typical in discrete latent variable models, we use beam search instead of sampling. To tackle the exponentially large search space, we use a stabilized auto-encoding objective and a structure tweak procedure to iteratively reduce and refine the search space.

研究の動機と目的

Wikipedia や長編物語のような大規模コーパスに対して実用的でない、文書全体を線形的に処理するエンド・ツー・エンドのディープラーニングQAモデルにおけるスケーラビリティ問題に対処すること。
テキスト長が増加するにつれて推論時間と性能が低下する既存の微分可能メモリモデルの非効率性を克服すること。
生テキストを記号的でインデックス可能なプログラムに変換することで、高速で定数時間の知識取得と推論を可能にする手法を開発すること。
入力サイズにかかわらず正確性と効率性を保証するように、符号化された知識から実行可能なプログラムを生成するエンド・ツー・エンドシステムを訓練すること。
離散的潜在変数モデルにおける強化学習の高い分散を、ビーム探索と安定化された自己符号化目的を用いて緩和すること。

提案手法

自然言語テキストを、コンパクトで構造的な形で知識を捉える記号的意味表現（プログラム）に変換するため、シーケンス・ツー・シーケンス・モデルを用いる。
離散的潜在変数の学習における勾配分散を低減するため、確率的サンプリングの代わりにビーム探索を併用した REINFORCE を適用する。
学習の安定性を向上させ、プログラム生成のための探索空間を縮小するために、安定化された自己符号化目的を採用する。
プログラム生成中に繰り返し探索空間を精緻化・縮小するための構造的チューニング手順を導入する。
記号的知識表現を効率的にインデックス化・検索可能にし、元のテキストサイズにかかわらず定数時間の応答を可能にする。
質問に正しいプログラムを生成することを目的として、強化学習を用いてNGMシステム全体をエンド・ツー・エンドで訓練する。

実験結果

リサーチクエスチョン

RQ1神経ネットワークを用いてエンド・ツー・エンドで記号的知識表現を学習可能であり、スケーラブルな質問応答を可能にするか？
RQ2インデックス可能な記号的プログラムを用いることで、QAシステムにおける推論時間のテキスト長への線形依存性が解消されるか？
RQ3安定化された自己符号化と組み合わせたビーム探索は、離散的潜在変数モデルにおけるプログラム生成の学習安定性と性能をどのように向上させるか？
RQ4NGM は、最大1000万文のストーリーを含む長文の文脈タスク、例えばライフ・ロング bAbI に一般化可能か？
RQ5知識集約型QAタスクにおいて、NGM は完全に微分可能なメモリモデルと比較して、正確性と推論効率の両面でどれほど優れているか？

主な発見

NGM は、標準的な bAbI タスクおよび最大1000万文のストーリーを含むライフ・ロング bAbI の変種において、高い精度を達成する。
NGM の推論の時間計算量はストーリー長に依存せず、入力サイズにかかわらず定数時間の応答が可能である。
微分可能メモリモデルとは異なり、NGM の性能と推論速度は文数の増加に伴って安定し、影響を受けない。
サンプリングの代わりにビーム探索を用いることで、学習中の勾配分散が顕著に低減され、収束性と安定性が向上する。
安定化された自己符号化目的と構造的チューニング手順は、探索空間を効果的に縮小し、効率的かつ正確なプログラム生成を可能にする。
NGM は、神経ネットワークで学習された表現から記号的プログラムを生成することで、スケーラブルで正確かつ効率的な知識集約型質問応答が実現可能であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。