QUICK REVIEW

[論文レビュー] Graph Transformer for Graph-to-Sequence Learning

Deng Cai, Wai Lam|arXiv (Cornell University)|Nov 18, 2019

Topic Modeling参考文献 44被引用数 37

ひとこと要約

本論文は explicit relation encoding と global attention を備えた Graph Transformer を提案し、ノード間での直接的な長距離通信を可能にする。AMR-to-text および構文ベースの MT タスクで state-of-the-art BLEU/chrF++ を達成。

ABSTRACT

The dominant graph-to-sequence transduction models employ graph neural networks for graph representation learning, where the structural information is reflected by the receptive field of neurons. Unlike graph neural networks that restrict the information exchange between immediate neighborhood, we propose a new model, known as Graph Transformer, that uses explicit relation encoding and allows direct communication between two distant nodes. It provides a more efficient way for global graph structure modeling. Experiments on the applications of text generation from Abstract Meaning Representation (AMR) and syntax-based neural machine translation show the superiority of our proposed model. Specifically, our model achieves 27.4 BLEU on LDC2015E86 and 29.7 BLEU on LDC2017T10 for AMR-to-text generation, outperforming the state-of-the-art results by up to 2.2 points. On the syntax-based translation tasks, our model establishes new single-model state-of-the-art BLEU scores, 21.3 for English-to-German and 14.1 for English-to-Czech, improving over the existing best results, including ensembles, by over 1 BLEU.

研究の動機と目的

ローカルな近傍伝播を超えた graph-to-sequence 学習の動機づけ。
Explicit relation encoding を備えた Graph Transformer を提案し、ノード間のグローバルで距離に依存しない通信を実現。
AMR-to-text 生成と構文ベースのニューラル機械翻訳での優れた性能を実証。
グラフサイズ、直径、再入性が性能と attention の挙動に与える影響を分析。

提案手法

最短経路の関係エンコーディングを用いたペアワイズなノード関係をモデル化するため、多頭注意を拡張した関係強化グローバル注意を導入。
任意の2ノード間の関係を、双方向 GRU でエンコードされた最短経路列として表現。
逆エッジとグローバルノードを追加して双方向通信を維持し、グラフレベルの表現を取得。
デコーダーをグローバルなグラフ表現で初期化し、エンコーダ-デコーダ相互作用には多頭注意を使用、コピー機構を併用。
生成時の日付・数字・固有表現を扱うためにコピー機構を組み込む。
ノード・トークンには文字レベルの CNN と標準的な単語レベルの埋め込みを用い、Adam で最適化；デコード時にはビーム探索を実施。

実験結果

リサーチクエスチョン

RQ1Explicit relation encoding を持つ Graph Transformer は、グラフ-to-シーケンスタスクにおいて GNN よりグローバルな依存関係をより効果的に捉えられるか？
RQ2ノード対間の最短経路ベースの関係をモデル化することは、AMR-to-text 生成および構文ベースの MT の性能を改善するか？
RQ3グラフのサイズ・直径・再入性は性能と注意挙動にどのような影響を与えるか？
RQ4Ensembling なしで AMR-to-text および構文ベースの MT において、最先端のニューラル手法を上回るか？
RQ5グローバルなグラフ表現は、シーケンス生成のためのデコーダの初期化に十分か？

主な発見

モデル	タイプ	BLEU (LDC2015E86)	chrF++ (LDC2015E86)	Meteor (LDC2015E86)	BLEU (LDC2017T10)	chrF++ (LDC2017T10)	Meteor (LDC2017T10)
Ours	単一モデル	27.4	56.4	32.9	29.8	59.4	35.1
Baseline/Previous (AMR-LDC2015E86)	-	22.4	-	-	-	-	-
Baseline/Previous (AMR-LDC2017T10)	-	23.0	-	-	-	-	-

AMR-to-text 生成で新たな state-of-the-art BLEU スコアを達成: 27.4 BLEU (LDC2015E86) および 29.8 BLEU (LDC2017T10)。
AMR-to-text で従来のニューラルおよび GNN ベース手法を最大で 2.2 BLEU ポイント上回り、非ニューラルベースラインを一部で上回ることを確認。
構文ベースの MT では単一モデルで 21.3 BLEU (EN→DE) および 14.1 BLEU (EN→CS) を達成、従来の単一モデルおよびアンサンブル結果を上回る。
chrF++ および Meteor 指標でも AMR-to-text および MT タスク全般で従来手法を上回る改善を示す。
注意機構の分析では、多くのヘッドが長距離でアテンションを行い、深い層で長距離注意が増加することが、巨大で複雑なグラフでの堅牢な性能に寄与することが示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。