QUICK REVIEW

[論文レビュー] Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation

Yu Chen, Lingfei Wu|arXiv (Cornell University)|Aug 14, 2019

Topic Modeling参考文献 75被引用数 79

ひとこと要約

本論文は、双方向グラフニューラルエンコーダと深層アラインメントネットワークを用いたRLベースのGraph2Seqモデルを提案し、テキストから自然な質問を生成する。SQuADで最先端の結果を達成。

ABSTRACT

Natural question generation (QG) aims to generate questions from a passage and an answer. Previous works on QG either (i) ignore the rich structure information hidden in text, (ii) solely rely on cross-entropy loss that leads to issues like exposure bias and inconsistency between train/test measurement, or (iii) fail to fully exploit the answer information. To address these limitations, in this paper, we propose a reinforcement learning (RL) based graph-to-sequence (Graph2Seq) model for QG. Our model consists of a Graph2Seq generator with a novel Bidirectional Gated Graph Neural Network based encoder to embed the passage, and a hybrid evaluator with a mixed objective combining both cross-entropy and RL losses to ensure the generation of syntactically and semantically valid text. We also introduce an effective Deep Alignment Network for incorporating the answer information into the passage at both the word and contextual levels. Our model is end-to-end trainable and achieves new state-of-the-art scores, outperforming existing methods by a significant margin on the standard SQuAD benchmark.

研究の動機と目的

豊富なテキスト構造を活用するため、 passages をグラフとしてモデリングし質問生成品質を向上させる。
複数の粒度で質問生成をガイドするため Answer 情報を効果的に統合する。
クロスエントロピーと強化学習損失のハイブリッド目的関数で訓練と推論のミスマッチを緩和する。
多様な報酬信号によって生成される質問の統語的・意味的妥当性を促進する。
標準ベンチマークで評価を行い、最先端の性能を確立し、構成要素の寄与を分析する。

提案手法

Bidirectional Gated Graph Neural Network (BiGGNN) エンコーダを持つ Graph2Seq ジェネレータを提案する。
静的（構文ベース）および動的（意味論意識的）手法を用いて passage グラフを構築する。
Word および文脈レベルで passage 情報と回答情報を融合する Deep Alignment Network (DAN) を導入する。
SCST を用いたクロスエントロピーと強化学習の混合目的を用いてハイブリッド評価器を訓練する。
BLEU-4 および Word Mover’s Distance (WMD) からの報酬を適用して意味論的・統語的品質を最適化する。
ビームサーチを用いて評価し、SQuAD データセット上で複数のベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1グラフ構造化表現がテキストの自然言語質問生成を、シーケンスベースのエンコーダと比較してどう改善するか。
RQ2深いアライメント機構を通じて回答情報を組み込むと、質問の関連性と品質は改善されるか。
RQ3静的な構文ベースのグラフ構築と動的な意味論意識型グラフ構築のQG性能への影響はどうなるか。
RQ4ハイブリッド CE+RL 目的関数は単純な CE 訓練を上回るか。
RQ5提案モデルは SQuAD において自動評価および人間評価の点で最先端のベースラインと比較してどうか。

主な発見

BLEU-4	METEOR	ROUGE-L	Q-BLEU1
Split-1	Transformer	2.56	8.98	26.01	16.70
Split-1	SeqCopyNet	–	–	–	–
Split-1	NQG++	–	–	–	–
Split-1	MPQG+R*	14.39	18.99	42.46	52.00
Split-1	AFPQA	–	–	–	–
Split-1	s2sa-at-mp-gsa	15.32	19.29	43.91	–
Split-1	ASs2s	16.20	19.92	43.96	–
Split-1	CGC-QG	17.55	21.24	44.53	–
Split-1	G2S dyn +BERT+RL	17.55	21.42	45.59	55.40
Split-1	G2S sta +BERT+RL	17.94	21.76	46.02	55.60

提案された G2S sta +BERT+RL および G2S dyn +BERT+RL は SQuAD テストスプリットで新たな最先端スコアを達成。
静的なグラフ構築は一般に動的なグラフ構築よりも多くの指標で上回る。
DAN を介した回答情報の組み込みは、アブレーションモデルに対して BLEU-4（および他の指標）を大幅に改善。
REINFORCE でのファインチューニングは、特に BERT を用いた設定で性能をさらに向上させる。
人間評価は、グランドトゥルースおよび強力なベースラインと比較して、統語・意味品質が競争力があることを示す。
アブレーションにより BiGGNN の前方/後方メッセージ passing と DAN が gains にとって重要であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。