QUICK REVIEW

[論文レビュー] Learning to Paraphrase for Question Answering

Li Dong, Jonathan Mallinson|arXiv (Cornell University)|Aug 20, 2017

Topic Modeling参考文献 32被引用数 25

ひとこと要約

本稿では、質問-回答ペairを教師として、エンド・ツー・エンドに質問の言い換えをスコアリングおよび重み付けすることができるニューラルフレームワーク、Para4QAを提案する。QAシステムとニューラルスコアリングモデルを統合することで、複数のデータセットで正答率が向上し、GraphQuestionsでは最先端の結果を達成し、他の2つのデータセットでも単純なQAモデルを用いても競争力のある性能を示した。

ABSTRACT

Question answering (QA) systems are sensitive to the many different ways natural language expresses the same information need. In this paper we turn to paraphrases as a means of capturing this knowledge and present a general framework which learns felicitous paraphrases for various QA tasks. Our method is trained end-to-end using question-answer pairs as a supervision signal. A question and its paraphrases serve as input to a neural scoring model which assigns higher weights to linguistic expressions most likely to yield correct answers. We evaluate our approach on QA over Freebase and answer sentence selection. Experimental results on three datasets show that our framework consistently improves performance, achieving competitive results despite the use of simple QA models.

研究の動機と目的

自然言語における表層形の変化に敏感な質問応答システムの課題に対処すること。
すべての言い換えを同等に扱うのではなく、正解に至る可能性の高い言い換えを学習することで、QAの耐障害性を向上させること。
質問-回答ペアを教師として用い、言い換えスコアリングとQAパフォーマンスを同時に最適化できる柔軟でエンド・ツー・エンドで訓練可能なフレームワークを開発すること。
ルールベース、ニューラル、PPDBなど多様な言い換え生成手法を統一されたスコアリングおよびQAパイプラインに統合できるようにすること。

提案手法

フレームワークは、正解の答えを生成する可能性が高いかに基づいて、候補となる言い換え表現に重みを付けるニューラルスコアリングモデルを用いる。
元の質問とその言い換え表現を組み合わせてQAモデルに投入し、答えの分布を予測する。スコアは正規化され、結果の重み付けに使用される。
システム全体が質問-回答ペアを教師としてエンド・ツー・エンドで訓練され、タスク固有の言い換え品質を学習できる。
言い換え表現は、PPDB、ニューラル機械翻訳、WikiAnswersから抽出したルールなど複数の方法で生成され、その後ニューラルモデルによってスコア付けされる。
答えの確率は、スコアリングモデルによって学習された重み付き和として定式化される。
フレームワークはプラグアンドプレイであり、アーキテクチャの変更なしにさまざまなQAおよび言い換えモデルと統合可能である。

実験結果

リサーチクエスチョン

RQ1質問-回答ペアを教師としてエンド・ツー・エンドに訓練されたニューラルスコアリングモデルは、正解に至る可能性の高い言い換えを特定できるか？
RQ2学習された言い換えスコアリングを統合することで、知識ベースQAや答え文選択などの多様な質問応答タスクで性能が向上するか？
RQ3単純な質問と複雑な質問の両方において、フレームワークの性能はどのように変化するか。また、特定の文法構造（例：関係動詞、焦点構造）の言い換えによってより大きな利益を得られるか？
RQ4異なる言い換え生成手法やQAモデルに対しても、このフレームワークは汎用性を示せるか？

主な発見

Para4QAはGraphQuestionsデータセットで最先端のパフォーマンスを達成し、単純な質問では平均F1が6.5ポイント、複雑な質問では3.8ポイントの絶対的向上を示した。
WebQuestionsおよびFreeLBでは、競争力のある結果を達成し、複数のQAタスクで一貫した性能向上を示した。
モデルは、知識ベースの述語と答えの重なりを高める言い換え（例：「sort of part」を「role」に置き換える）に対して高いスコアを割り当てることを学習した。
モデルは質問語、焦点構造、関係動詞、制約条件といった重要な文法的要素を効果的に特定し、言い換え処理を実施した。特に関係動詞が最も頻繁に言い換えられていた。
単純な質問に対してより顕著な向上が見られたことから、言い換えの質とスコアリングが低複雑度のケースにおいてより予測可能で効果的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。