QUICK REVIEW

[論文レビュー] Neural Models for Key Phrase Detection and Question Generation

Sandeep Subramanian, Tong Wang|arXiv (Cornell University)|Jun 14, 2017

Advanced Text Analysis Techniques参考文献 32被引用数 32

ひとこと要約

本稿では、ドキュメントから自動的に質問を生成するための2段階のニューラルフレームワークを提案する。最初の段階では、QAコーパスから人間が選択するようなキーフレーズを抽出するために、ポインタネットワークを備えたシーケンス・ツー・シーケンスモデルを用いる。2番目の段階では、これらのキーフレーズを条件として、アテンションとポインタ・ソフトマックスを備えたシーケンス・ツー・シーケンス質問生成モデルを用いる。このシステムは、ルールベースおよびエンティティタギングのベースラインと比較して、キーフレーズ抽出において顕著に優れており、自然で回答可能な質問を生成する。その質問はしばしば人間が作成したものと区別がつかない。

ABSTRACT

We propose a two-stage neural model to tackle question generation from documents. First, our model estimates the probability that word sequences in a document are ones that a human would pick when selecting candidate answers by training a neural key-phrase extractor on the answers in a question-answering corpus. Predicted key phrases then act as target answers and condition a sequence-to-sequence question-generation model with a copy mechanism. Empirically, our key-phrase extraction model significantly outperforms an entity-tagging baseline and existing rule-based approaches. We further demonstrate that our question generation system formulates fluent, answerable questions from key phrases. This two-stage system could be used to augment or generate reading comprehension datasets, which may be leveraged to improve machine reading systems or in educational settings.

研究の動機と目的

人間によるアノテーションが必要な読解理解データセットの高コストとスケーラビリティの限界を解消するため、質問・回答ペairの自動生成を実現すること。
クラウドソーシングされたQAデータ上でニューラルシーケンス・ツー・シーケンス学習を用いて、ドキュメント内の人が選択するキーフレーズの分布をモデル化すること。
抽出されたキーフレーズを条件として、アテンション機構とコピーメカニズムを備えたアテンションベースのシーケンス・ツー・シーケンスモデルを用いて、自然で回答可能な質問を生成すること。
生成された質問の品質を、人間が作成した質問と比較して、文法的流暢さ、正しさ、人間による識別可能性の観点から評価すること。
本フレームワークが、教育的応用やモデル学習用に適した高品質で汎用性のあるQAペアを生成できることを示すこと。

提案手法

QAデータセットからの人間選択の確率を条件として、ドキュメント内のキーフレーズの開始・終了境界を予測するシーケンス・ツー・シーケンスモデルを用いて、ニューラルキーフレーズ抽出器を学習する。
入力ドキュメントからの語の直接コピーを可能にするポインタ・ソフトマックス機構を導入することで、希少語や未知語に対する精度を向上させる。
バフダノウアテンションを用いたエンコーダ・デコーダアーキテクチャにより、キーフレーズを条件として質問生成モデルを設計し、関連するドキュメント部分と質問トークンをアライメントさせる。
SQuAD、NewsQA、TriviaQAといった大規模QAデータセット上で、正解の回答と質問の尤度を最大化するように、両方のモジュールをエンド・ツー・エンドで学習する。
クラウドソーシングされたアノテーションを活用して、生成された質問の流暢さと正しさを評価し、人間が作成したQAペアと比較する人間の好み評価を実施する。
実世界のドキュメントに対して、内部検索ツールを介してモデルを適用し、標準的な読解理解ベンチマークを越えた汎用性をテストする。

実験結果

リサーチクエスチョン

RQ1ポインタネットワークを備えたニューラルシーケンス・ツー・シーケンスモデルは、QAコーパスから人間の選択パターンを反映するキーフレーズを効果的に学習できるか？
RQ2提案されたキーフレーズ抽出モデルの性能は、ルールベースおよびエンティティタギングのベースラインと比較して、精度と再現率の観点でどの程度優れているか？
RQ3生成された質問は、文法的流暢さとソースドキュメントおよびキーフレーズに対する意味的関連性をどの程度満たしているか？
RQ4人間評価において、モデルが生成したQAペアは人間が作成したものとどの程度区別できるか？
RQ52段階のフレームワークは、読解理解データセットの拡張や教育的応用に適したQAペアを生成できるか？

主な発見

提案されたキーフレーズ抽出モデルは、エンティティタギングベースラインおよびルールベース手法と比較して、人間が選択した回答候補を識別する点で顕著に優れている。
クラウドワーカーによる評価で、生成された質問の59.8％が流暢さを満たしていると評価され、そのうち35.6％が対応する正解と正確に一致した。
人間の好み評価において、53.5％のアノテーターが本モデルが生成したQAペアを強力なベースライン（H&S）よりも好んだ。これは、優れた競争力を持つ質を示している。
アノテーターは、モデルが生成したQAペアを77.8％の確率で「合成出力」と正しく識別できた。これは、人間の出力とほとんど区別がつかないほどリアルで、識別が難しいことを示している。
ある評価では、モデル自身の出力を人間の出力と区別する精度が66.7％に達し、H&Sとの比較では81.8％に達した。これは、人間とほとんど変わらない質の高さを示している。
本モデルは実世界のドキュメントに対しても良好に一般化しており、内部検索ツールを介して非RCデータセットでもテストしたが、流暢さと意味的関連性を保った質問を生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。