Skip to main content
QUICK REVIEW

[論文レビュー] Linguistic Knowledge as Memory for Recurrent Neural Networks

Bhuwan Dhingra, Zhilin Yang|arXiv (Cornell University)|Mar 7, 2017
Topic Modeling参考文献 34被引用数 34
ひとこと要約

本稿では、コアフレンスやハイパノニムィ関係などの記号的言語知識を、タイプ付きの長距離エッジを介して再帰的ネットワークに統合するメモリ拡張RNNフレームワーク、MAGE-RNNを提案する。得られたグラフを有向無閉路部分グラフに分解し、エッジタイプごとに別々の表現を学習することで、明示的で構造的なメモリアクセスを可能にし、CNN、bAbi、LAMBADAベンチマークで最先端の結果を達成した。特に、1タスクあたり1,000件の訓練例でのみ、20タスク中15タスクを解決した。

ABSTRACT

Training recurrent neural networks to model long term dependencies is difficult. Hence, we propose to use external linguistic knowledge as an explicit signal to inform the model which memories it should utilize. Specifically, external knowledge is used to augment a sequence with typed edges between arbitrarily distant elements, and the resulting graph is decomposed into directed acyclic subgraphs. We introduce a model that encodes such graphs as explicit memory in recurrent neural networks, and use it to model coreference relations in text. We apply our model to several text comprehension tasks and achieve new state-of-the-art results on all considered benchmarks, including CNN, bAbi, and LAMBADA. On the bAbi QA tasks, our model solves 15 out of the 20 tasks with only 1000 training examples per task. Analysis of the learned representations further demonstrates the ability of our model to encode fine-grained entity information across a document.

研究の動機と目的

  • 訓練データが限られている状況でも、順序データにおける長距離依存関係をモデル化する課題に対処すること。
  • コアフレンスやハイパノニミーなどの記号的言語的知識を再帰的ニューラルネットワークに統合することで、テキスト理解を向上させること。
  • データ駆動のアテンションやメモリ機構に依存するのではなく、外部知識を明示的に用いてメモリアクセスをガイドするメモリ拡張RNNアーキテクチャを設計すること。
  • 特に低データ環境下で優れた性能を発揮する、ベンチマークテキスト理解タスクでの性能向上を達成すること。
  • 構造的な言語的知識が、エンドツーエンドで学習されるモデルであっても、シーケンスモデリングにおける有効なインダクティブバイアスとして機能できることを示すこと。

提案手法

  • コアフレンスやハイパノニミーなどの言語的関係を表すタイプ付きの長距離エッジを入力シーケンスに追加し、サイクルを含むグラフに変換する。
  • 元のシーケンス順序をトポロジカル順序として用いて、得られたグラフを2つの有向無閉路グラフ(DAG)に分解し、効率的で単一パスの計算を可能にする。
  • MAGE-RNNを導入し、各ノードでエッジタイプごとに別々の隠れ状態とメモリ表現を維持することで、タイプ別情報伝搬を可能にする。
  • MAGE-GRUを実装し、既存モデルの標準GRUユニットをMAGE-GRUユニットに置き換えることで、言語的メモリをシーケンスモデルに統合する。
  • 各エッジタイプに沿った伝搬のための別々の表現をパラメータ化し、シンボリック信号を通じて関連する遠隔要素に選択的にアテンションできるようにする。
  • コアフレンス解消ツールを用いてエンティティの表記を抽出し、それらをエッジで接続し、RNNに明示的なメモリ信号として統合する。

実験結果

リサーチクエスチョン

  • RQ1コアフレンスやハイパノニミーなどの記号的言語的知識が、RNNにおけるメモリアクセスを効果的にガイドできるか。
  • RQ2タイプ付きエッジとして構造的な言語的関係を統合することで、低データ環境下での長距離依存関係のモデリングが向上するか。
  • RQ3言語的関係を明示的なメモリ信号として扱うメモリ拡張RNNフレームワークが、標準RNNやアテンションベースのモデルを上回る性能を発揮できるか。
  • RQ4外部知識が使用される場合、モデルの性能が限られた訓練データ量に対してどのようにスケーリングするか。
  • RQ5MAGE-RNNは、長文にわたるエンティティレベルの詳細な情報をどの程度正確に符号化できるか。

主な発見

  • MAGE-RNNはCNNデータセットで最先端の性能を達成し、MAGE-GRU (32)ではテスト精度0.786、MAGE-GRU (16)では0.792を記録。前回の最先端を0.7%上回った。
  • bAbi QAタスクでは、1タスクあたり1,000件の訓練例でのみ、20タスク中15タスクを解決し、低データ環境下での優れた一般化性能を示した。
  • MAGE-GRUモデルは、BiGRUベースラインをCNNで2.5パーセンテージポイント向上(テストセットで0.704から0.729に)、追加データなしで達成した。
  • 標準GRUとコアフレンスIDをワンホット特徴として注入するベースラインよりも優れた性能を示し、特徴注入よりも明示的メモリの優位性を確認した。
  • 学習済み表現の分析から、MAGE-RNNがドキュメント全体にわたって細粒度のエンティティ情報の符号化を効果的に行っていることが確認され、正確なコアフレンス解消が可能となった。
  • フレームワークは一般化性に優れている:BiDAFのGRUユニットをMAGE-GRUに置き換えることで一貫した性能向上が得られ、アーキテクチャを問わず有効性と相互運用性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。