QUICK REVIEW

[論文レビュー] Who did What: A Large-Scale Person-Centered Cloze Dataset

Takeshi Onishi, Hai Wang|arXiv (Cornell University)|Aug 19, 2016

Topic Modeling参考文献 1被引用数 29

ひとこと要約

本稿では、200,000件を超える複数選択式の問題を含む大規模な人物中心の穴埋め読解データセット「Who-did-What (WDW)」を紹介する。各問題は、要約や匿名化を行わない2つの異なるニュース記事（本文記事と質問記事）に基づいて作成されている。単純なベースラインを抑えるためにデータセットがフィルタリングされ、人的パフォーマンス（84％）と最先端モデル（55–65％）の間で16％の性能差が生じており、ニューラル読解システムにとってより挑戦的なベンチマークとなっている。

ABSTRACT

We have constructed a new "Who-did-What" dataset of over 200,000 fill-in-the-gap (cloze) multiple choice reading comprehension problems constructed from the LDC English Gigaword newswire corpus. The WDW dataset has a variety of novel features. First, in contrast with the CNN and Daily Mail datasets (Hermann et al., 2015) we avoid using article summaries for question formation. Instead, each problem is formed from two independent articles --- an article given as the passage to be read and a separate article on the same events used to form the question. Second, we avoid anonymization --- each choice is a person named entity. Third, the problems have been filtered to remove a fraction that are easily solved by simple baselines, while remaining 84% solvable by humans. We report performance benchmarks of standard systems and propose the WDW dataset as a challenge task for the community.

研究の動機と目的

要約に依存しない、より現実的で複雑な推論を可能にする大規模かつスケーラブルな読解データセットの構築を目的とする。
本文と質問作成に独立した2つの記事を用いることで、従来の要約ベースのデータセット（例：CNN/Daily Mail）と比較して、意味的および構文的乖離を高め、課題の難易度を向上させる。
単純なベースラインモデル（例：頻出人物、最初に登場する人物）を抑えることで、人間と機械のパフォーマンス差を拡大し、より深い意味的理解を促進する。
名前付きエンティティを保存し、匿名化を行わないことで、現実世界の読解タスクをよりよく反映するベンチマークを提供する。
人間と機械のパフォーマンスに顕著な差が現れるデータセットを確立し、ニューラル読解モデルの評価基準を新たに定める。

提案手法

LDC English Gigawordコーパスから質問記事を選択し、その最初の文から人物名エンティティを削除することで穴埋め問題を構築する。
情報検索システムを用いて、質問の最初の文と高い意味的類似度を持つ関連する本文記事を取得し、文脈的関連性を保証する。
取得した本文から名前付きエンティティを抽出し、匿名化を行わず実際の人物名を保持したまま選択肢を生成する。
単純なベースライン（例：頻出人物、最初に登場する人物、n-gram、unigramモデル）に有利となる問題を抑えるための抑制アルゴリズムを適用し、最適化によりベースラインの成功確率をランダム性能（k = 0.32）に制限する。
時系列順序に基づいて最終データセットを訓練・検証・テストに分割し、意味的重複を最小限に抑える（最近20,000件を検証／テスト用に使用）。
モデルの事前学習を可能にするために、抑制を弱めた緩い訓練セットを別途提供するが、主な訓練／検証／テストセットは評価を目的に完全に抑制されている。

実験結果

リサーチクエスチョン

RQ1要約を行わない独立したニュース記事から、現実の読解タスクをよりよく反映する大規模な読解データセットを構築可能か？
RQ2本文と質問作成に別個の2つの記事を用いることで、CNN/Daily Mailのような要約ベースのデータセットと比較して、意味的および構文的難易度が向上するか？
RQ3単純なベースラインの抑制が、人間が解ける範囲を保ちつつ、穴埋めデータセットの難易度をどの程度向上できるか？
RQ4この新しいデータセットにおいて、人間と最先端のニューラルモデルのパフォーマンス差は、既存のベンチマークと比較してどの程度か？
RQ5匿名化を実施せず、実際の名前付きエンティティを保持することで、読解タスクの現実性と難易度が向上するか？

主な発見

WDWデータセットには、185,978件の訓練例、10,000件の検証例、10,000件のテスト例が含まれており、1問あたり平均3.5個の選択肢、1つの本文は325–378トークン程度である。
抑制処理後、単純なベースライン（例：頻出人物、最初に登場する人物）の性能は約60％から約32％に低下し、ランダムベースラインと一致するようになる。
テストセットにおける人的パフォーマンスは84％に達しており、CNNの75％やCBTの82％と比較して顕著に高く、本データセットにおける人的理解力の高さを示している。
Attentive ReaderはWDWで55％の性能を示したが、CNNでは63％であり、10–15％の低下が確認された。
Attention Sum ReaderはWDWで59％、CNNで70％を記録し、同様に性能低下が確認された。
Stanford ReaderはWDWで64％、CNNで73％を記録した。Gated-Attention ReaderはWDWで60％、CNNで74％を記録し、回答頻度依存モデルが抑制処理によりより強く影響を受けることが示された。
人間（84％）と最良のニューラルモデル（緩い訓練セットでは65％、完全抑制では60％）のパフォーマンス差は顕著であり、現在のモデルが直面する本データセットの挑戦性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。