Skip to main content
QUICK REVIEW

[論文レビュー] Compositional generalization in a deep seq2seq model by separating syntax and semantics

Jacob Russin, Jason Jo|arXiv (Cornell University)|Apr 22, 2019
Natural Language Processing Techniques参考文献 28被引用数 86
ひとこと要約

論文は、Syntactic Attention を導入し、統語構造(アライメント)と意味論(語の出力対応)を分離する2ストリームの seq2seq モデルを提案。追加監視なしで prior モデルよりも高い組成一般化を SCAN で達成します。

ABSTRACT

Standard methods in deep learning for natural language processing fail to capture the compositional structure of human language that allows for systematic generalization outside of the training distribution. However, human learners readily generalize in this way, e.g. by applying known grammatical rules to novel words. Inspired by work in neuroscience suggesting separate brain systems for syntactic and semantic processing, we implement a modification to standard approaches in neural machine translation, imposing an analogous separation. The novel model, which we call Syntactic Attention, substantially outperforms standard methods in deep learning on the SCAN dataset, a compositional generalization task, without any hand-engineered features or additional supervision. Our work suggests that separating syntactic from semantic learning may be a useful heuristic for capturing compositional structure.

研究の動機と目的

  • 構文と意味論を分離する neural 機構を組成一般化の推進力として動機づける。
  • 構文と意味論を別々のストリームでエンコードする Syntactic Attention アーキテクチャを提案・実装する。
  • SCAN で評価し、特に add-jump の構成一般化分割に焦点を当てる。
  • 従来モデル(GRU with attention,CNN)と比較し、シード間のロバスト性を分析する。

提案手法

  • 2つの平行入力エンコーディングを導入する:意味表現 m_j = W_m x_j(語ごとの線形変換)と、文からの biRNN による統語注釈 h_j。
  • 標準のアテンション機構を用いて統語表現を使い、入力を出力へ整合させるアテンションを計算する(e_ij = s_i • h_j)。
  • d_i を意味表現の加重和として形成してデコードする(d_i = sum_j α_ij m_j)と、それから y_i を生成する。
  • 分離を維持する:意味論は他の語に依存せず、統語はアテンションに影響を与える時間的依存をエンコードする。
  • e_ij にはドット積アテンションを用い、エンコーダは2層、隠れ層200ユニット、デコーダは1層、隠れ層400ユニット、意味ベクトルサイズ120、ドロップアウト0.5。
  • SCAN で実験的に検証し、特に基本形以外の 'jump' を除外する add-jump 分割で評価。

実験結果

リサーチクエスチョン

  • RQ1構文と意味論を分離することは seq2seq モデルの組成一般化を改善するか。
  • RQ2アテンションを統語表現を介して動作させることは、未知の構文への外挿を高めるか。
  • RQ3分離を緩和・変更する変異は一般化にどのような影響を与えるか。

主な発見

モデル単純長さ左折を追加ジャンプを追加
GRU + attn [4]100.0 ± 0.018.1 ± 1.159.1 ± 16.812.5 ± 6.6
GRU + attn - dep [4]100.0 ± 0.017.8 ± 1.790.8 ± 3.60.7 ± 0.4
CNN [8]100.0 ± 0.0--69.2 ± 8.2
Syntactic Attention100.0 ± 0.015.2 ± 0.799.9 ± 0.1691.0 * ± 27.4
  • Syntactic Attention は SCAN の add-jump における組成的一般化で最先端の性能を達成し、平均正解率 91.0%(中央値 91.0%)を best run で記録、従来モデルを上回る。
  • シードを跨ぐと add-jump の性能にはばらつきがあり(平均 78.4%、中央値 91.0%)、初期化に敏感であることを示唆。
  • 単純さと長さの分割では、Syntactic Attention は報告結果でそれぞれ 100.0% と 15.2% を達成し、GRU+attn および CNN のベースラインを上回る。
  • 追加の実験では、逐次意味論が一般化を低下させる(例:逐次意味論: Add-jump 42.3±32.7)、一方で syntax-action(構文が出力に影響を与えることを許す)は強い性能を維持する(Add-jump 88.7±14.2)。
  • 総じて、構文と意味論の分離を強制することは、手作業での工夫や追加監視なしで系統的一般化を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。