Skip to main content
QUICK REVIEW

[論文レビュー] Structured Attention Networks

Yoon Kim, Carl Denton|arXiv (Cornell University)|Feb 3, 2017
Topic Modeling被引用数 101
ひとこと要約

この論文は、グラフィカルモデルベースのアテンションをニューラルネットワーク内に埋め込み、 differentiable inference(CRFs と依存パーサ)をニューラル層として用いることで、セグメンテーションと構文解析を考慮したアテンションを実現する構造化アテンションネットワークを導入する。エンドツーエンドの訓練可能な改善を、複数のタスクで標準のアテンションに対して示す。

ABSTRACT

Attention networks have proven to be an effective approach for embedding categorical inference within a deep neural network. However, for many tasks we may want to model richer structural dependencies without abandoning end-to-end training. In this work, we experiment with incorporating richer structural distributions, encoded using graphical models, within deep networks. We show that these structured attention networks are simple extensions of the basic attention procedure, and that they allow for extending attention beyond the standard soft-selection approach, such as attending to partial segmentations or to subtrees. We experiment with two different classes of structured attention networks: a linear-chain conditional random field and a graph-based parsing model, and describe how these models can be practically implemented as neural network layers. Experiments show that this approach is effective for incorporating structural biases, and structured attention networks outperform baseline attention models on a variety of synthetic and real tasks: tree transduction, neural machine translation, question answering, and natural language inference. We further find that models trained in this way learn interesting unsupervised hidden representations that generalize simple attention.

研究の動機と目的

  • 構造的バイアスをアテンション機構に統合して、 subsequences と潜在パース構造をモデル化する動機づけ。
  • 線形チェーンCRFと一階グラフベースのパーサーに基づく微分可能な構造化アテンション層を開発。
  • これらの層をニューラルネットワーク内で複数のNLPタスクにわたりエンドツーエンド訓練できることを示す。
  • 構造化アテンションが性能を向上させ、解釈可能な潜在構造を学習することを示す。

提案手法

  • 構造化アテンションを、ニューラルネットワークから導出された clique potentials を持つ潜在変数のベクトル上の CRF と定義する。
  • 前向き・後向き (線形チェーンCRF) または インサイドアウトサイド (パーシング) 推論を用いて、CRF の周辺期待値としてコンテキストを計算する。
  • 差分可能なルーチンを介して推論を逆伝播し、対数空間計算と勾配の符号付き対数空間を扱う。
  • 二つの CRF ベースのアテンション変種をインスタンス化する: subsequence segmentation のための線形チェーンと、潜在依存関係構造のための一階グラフベースパーサー。
  • エンコーダ-デコーダおよび QA/NLI パイプラインで標準の softmax アテンションを置換するニューラルネットワークモジュールとして構造化アテンション層を適用。

実験結果

リサーチクエスチョン

  • RQ1構造化アテンション層(CRF ベース)は、深層ネットワーク内でエンドツーエンドに訓練して subsequence segmentation および潜在的な木構造をモデル化できるか?
  • RQ2CRF-アテンション変種は、木変換、分割を伴う MT、QA、NLI などの構造的バイアスが要求されるタスクで標準のアテンションより改善するか?
  • RQ3これらの構造化層から学習した周辺確率は、パースツリーやセグメンテーションに似た解釈可能な内部表現を生み出すか?

主な発見

深さアテンションなしシンプル構造化
27.687.499.2
34.149.687.0
42.823.364.5
52.115.030.8
61.58.518.2
  • 構造化アテンションは、合成木変換タスクとセグメンテーションを伴うニューラル MT のベースラインアテンションを上回る。
  • MTでのセグメンテーションアテンション(2状態線形チェーンCRF)は、単純なアテンションおよびシグモイドアテンションに対して BLEU スコアを改善し、構造化アテンションが最良の平均結果を示した。
  • QA 実験は、マルチファクト推論の線形チェーンCRFを用いて Memory Networks と比較して回答精度と推論挙動が競争力がある、または向上。
  • NLI は統語的な (依存木) アテンションを用いることで、標準のアテンションと比べて内部構造が強く、質的挙動も改善。
  • 構造化アテンション下で学習された内部表現は、境界や木のようなパターンといった潜在構造バイアスを、単なるアテンションを超えて明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。