QUICK REVIEW

[論文レビュー] Question Answering as Global Reasoning over Semantic Abstractions

Daniel Khashabi, Tushar Khot|arXiv (Cornell University)|Jun 9, 2019

Topic Modeling被引用数 56

ひとこと要約

SemanticILPは、複数の意味的抽象化を通じて質問・回答・テキストを結ぶグローバルな推論フレームワークを構築し、最適なサポートグラフを選択するILPとして定式化します。科学QAデータセットでベースラインを2–6%上回り、分野固有の監視なしでも生物学の結果が強いことを示します。

ABSTRACT

We propose a novel method for exploiting the semantic structure of text to answer multiple-choice questions. The approach is especially suitable for domains that require reasoning over a diverse set of linguistic constructs but have limited training data. To address these challenges, we present the first system, to the best of our knowledge, that reasons over a wide range of semantic abstractions of the text, which are derived using off-the-shelf, general-purpose, pre-trained natural language modules such as semantic role labelers, coreference resolvers, and dependency parsers. Representing multiple abstractions as a family of graphs, we translate question answering (QA) into a search for an optimal subgraph that satisfies certain global and local properties. This formulation generalizes several prior structured QA systems. Our system, SEMANTICILP, demonstrates strong performance on two domains simultaneously. In particular, on a collection of challenging science QA datasets, it outperforms various state-of-the-art approaches, including neural models, broad coverage information retrieval, and specialized techniques using structured knowledge bases, by 2%-6%.

研究の動機と目的

データ不足な領域において、さまざまな言語現象の推論を要する課題に対応する。
Q、A、Pの豊かな意味グラフ表現を作成するために、複数の汎用NLPツールを活用する。
ILPを用いてグローバル/ローカル制約付きに最適で連結されたサポートグラフを選択することで、QAを定式化する。
科学（小学校レベルから中学生レベル）と生物学の読解データセットで、ドメイン横断の有効性を示す。

提案手法

Q、A、Pを複数のNLPモジュール（SRL、コアファレンス、依存解析など）からなるファミリーの意味グラフとして表現する。
語彙/意味リソース（WordNet、Paragram）を用いて、Q、A、P間の類似性/含意エッジを追加する。
augmented graph I+ と、Qを単一のAへPを介して接続する有効なサポートグラフGを規定する制約集合を定義する。
ノード/エッジの重み付けスコアとソフト制約を最大化するILPを定式化し、最良のG*を選択する。
個別回答ごとに線形スコアリングを用いてソルバーのアンサンブルを作成し、信頼度を推定する。
必要に応じて複数データセットの結果を組み合わせるために、 passagesのスニペットを作成し、ソルバのアンサンブルを用いる。

実験結果

リサーチクエスチョン

RQ1多様な意味抽象化を用いた推論によって、表面的なテキストのみを利用するよりもQAは改善されるか。
RQ2データが少ない領域で、広くノイズの多い意味グラフ表現を用いる推論はニューラルベースのベースラインを上回るか。
RQ3動詞/名詞/前置詞/カンマSRL、コアファレンス、依存関係といった複数のSRL/言語的視点の組み合わせは、QAの性能にどのような影響を与えるか。
RQ4ドメイン固有の監視なしに、ILPベースのグローバル推論フレームワークは科学と生物学の両領域へ一般化できるか。

主な発見

Dataset	BiDAF	BiDAF’	IR	TupleInf	SemanticILP
Regents 4th	56.3	53.1	59.3	61.4	67.6
AI2Public 4th	50.7	57.4	54.9	56.1	59.7
Regents 8th	53.5	62.8	64.2	61.3	66.0
AI2Public 8th	47.7	51.9	52.8	51.6	55.9
ProcessBank (Biology)	68.1	61.9	63.8	58.7	67.9

SemanticILPは科学データセットでベースラインを安定して上回り、絶対的な向上幅は2–6%に達する。
生物学のProcessBankデータでは、SemanticILPはドメイン固有手法と競合し、いくつかのベースラインを凌ぎ、報告設定で67.9%を達成。
ILPのサイズと複雑さはスケールし、平均変数は約2255、制約は約4519程度となり、グラフ構築のために他のベースラインよりモデル作成時間が長くなることがある。
アブレーション実験は、ドメイン間でアノテータ組み合わせの重要度が異なることを示し、生物学では特定の組み合わせがより強い結果を生み、初等科学では他が有効であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。