QUICK REVIEW

[論文レビュー] WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-Hop Inference

Peter Jansen, Elizabeth Wainwright|arXiv (Cornell University)|Feb 8, 2018

Topic Modeling被引用数 32

ひとこと要約

本稿では、1,680の小学校理科問題の説明グラフからなる大規模コーパスであるWorldTreeを紹介する。この説明グラフは、語彙的重複を示す文の連結として、詳細でマルチホップの推論を表現している。また、説明中心のテーブルストア（4,950行）を提供し、説明可能推論モデルの学習を可能にする。主な貢献は、スケーラブルでオープンソースのリソースを提供することであり、知識の重複とテーブルストアの成長に基づいて、将来のモデルのコーパスサイズ要件を推定できる。

ABSTRACT

Developing methods of automated inference that are able to provide users with compelling human-readable justifications for why the answer to a question is correct is critical for domains such as science and medicine, where user trust and detecting costly errors are limiting factors to adoption. One of the central barriers to training question answering models on explainable inference tasks is the lack of gold explanations to serve as training data. In this paper we present a corpus of explanations for standardized science exams, a recent challenge task for question answering. We manually construct a corpus of detailed explanations for nearly all publicly available standardized elementary science question (approximately 1,680 3rd through 5th grade questions) and represent these as "explanation graphs" -- sets of lexically overlapping sentences that describe how to arrive at the correct answer to a question through a combination of domain and world knowledge. We also provide an explanation-centered tablestore, a collection of semi-structured tables that contain the knowledge to construct these elementary science explanations. Together, these two knowledge resources map out a substantial portion of the knowledge required for answering and explaining elementary science exams, and provide both structured and free-text training data for the explainable inference task.

研究の動機と目的

説明可能質問応答モデルの学習に用いるゴールドスタンダードの説明が、科学分野において不足している問題に対処すること。
語彙的重複を用いて文の間のつながりを表現することで、マルチホップ推論をモデル化する、構造的かつスケーラブルな説明グラフコーパスの開発。
空間的でも数学的でもない小学校理科の質問を対象とした、準構造化された知識を含む説明中心のテーブルストアの作成。
知識頻度、説明の重複、テーブルストアの成長を分析し、将来の推論モデルのコーパスサイズ要件を推定すること。
人間が読みやすい根拠を生成できる説明可能推論システムの学習を可能にし、科学および医学分野における信頼性と一般化性能の向上を図ること。

提案手法

1,680の標準化された小学校理科問題について、推論を相互に接続された語彙的重複を示す文の列として表現する説明グラフを手作業で構築。
明示的な意味的つながりを持つ自由テキストのシーケンスとして説明を表現し、マルチホップ推論のモデル化を可能にする。
説明の構築に必要なドメイン知識および世界知識を含む、62テーブル、4,950行の説明中心のテーブルストアを作成。
モンテカルロシミュレーションを用いて、コーパスサイズ、説明の重複、テーブルストアの成長の関係をモデル化。
知識頻度と重複パターンの分析により、さまざまな重複要件を満たす推論モデルの学習に必要な最小コーパスサイズを推定。
比例減衰関数を用いたテーブルストア成長のモデル化により、約10,000問の問題に対して約6,000行の上限に漸近収束することが示された。

実験結果

リサーチクエスチョン

RQ1説明可能推論モデルを、小学校理科の質問に一般化できるように学習させるために、必要な最小コーパスサイズは何か？
RQ2説明の重複度がコーパスサイズとともにどのように変化するか？これはデータ効率にどのような意味を持つのか？
RQ3すべての空間的でも数学的でもない小学校理科の質問を説明するために必要な知識ベース（テーブルストア）の漸近的サイズは何か？
RQ4説明に共通する知識行の数が、マルチホップ推論モデルの学習可能性に与える影響は何か？
RQ5知識頻度と重複の予測可能なパターンを用いて、新しいドメインのデータ要件を推定できるか？

主な発見

コーパスには1,680の小学校理科の質問が含まれており、それぞれの説明グラフは平均6文で構成され、語彙的重複を通じてマルチホップ推論が可能である。
説明の重複度はコーパスサイズとともに対数的に増加する傾向を示しており、1つの共通行を必要とするモデルには500問程度で十分であるのに対し、3つ以上の共通行を必要とするモデルには20,000問程度のコーパスが必要であると示唆している。
説明のテーブルストアは比例減衰関数に従って成長し、10,000問の問題に対して約6,000の固有行に漸近収束する。これは、この分野におけるコア知識の有限な上限があることを示している。
コーパスサイズと説明の重複度の関係は強く対数的であるため、数100問程度のアノテーションが完了した段階で、データ要件を推定できる。
テーブルストアと説明グラフは、構造化済みデータと自由テキストデータの両方を提供しており、リtrieーブベースおよび生成型の説明可能推論モデルの両方の学習を支援する。
コーパスとツールは http://www.cognitiveai.org/explanationbank で公開されており、説明可能AI分野における再現性のある研究とモデル開発を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。