QUICK REVIEW

[論文レビュー] QuAC : Question Answering in Context

Eunsol Choi, He He|arXiv (Cornell University)|Aug 21, 2018

Topic Modeling参考文献 22被引用数 53

ひとこと要約

QUACは、隠されたWikipediaのセクションについて学生が質問し、教師がテキストのスパンで回答する情報探索型対話QAの大規模データセットを導入します。これにより、オープンエンドなケースや答えられないケースが明らかになり、正確な回答には対話の文脈が必要となります。

ABSTRACT

We present QuAC, a dataset for Question Answering in Context that contains 14K information-seeking QA dialogs (100K questions in total). The dialogs involve two crowd workers: (1) a student who poses a sequence of freeform questions to learn as much as possible about a hidden Wikipedia text, and (2) a teacher who answers the questions by providing short excerpts from the text. QuAC introduces challenges not found in existing machine comprehension datasets: its questions are often more open-ended, unanswerable, or only meaningful within the dialog context, as we show in a detailed qualitative evaluation. We also report results for a number of reference models, including a recently state-of-the-art reading comprehension architecture extended to model dialog context. Our best model underperforms humans by 20 F1, suggesting that there is significant room for future work on this data. Dataset, baseline, and leaderboard available at http://quac.ai.

研究の動機と目的

情報探索型の対話で、質問は文脈依存であり、セクションだけからは答えられない場合がある。
大規模データセットを作成する（14K対話、100Kの質問）教師-学生の相互作用とアクセス非対称性を持つ。
対話文脈がQAの性能に与える影響を調べ、文脈を取り入れた強力なベースラインを提供する。

提案手法

Wikipediaセクション周辺のクラウドソースの教師-学生対話（学生はタイトルと最初の段落のみを見る。教師はセクション全体を見る）で、回答はセクション本文内のスパン（最大30トークン）。
教師は回答スパンに加えて対話行為（継続、肯定、回答可能性）を出力し、対話を導く。
データセット収集はMechanical Turkを用い、品質管理とターンごとの報酬を設ける；対話は12問の回答済み質問で終了するか、早期終了条件。
評価はSQuADスタイルのF1でスパン予測を扱い、答えられない処理とヒューマン同等性スコア（HEQ）を比較する。
ベースラインモデルにはテキスト類似性、対話文脈に適応したBiDAF++スタイルの読解モデル、前のターンに基づく文脈を条件とする文脈付与バリアントを含む。）

実験結果

リサーチクエスチョン

RQ1対話文脈は情報探索型QAにおける回答可能性とスパン定位にどのような影響を与えるか？
RQ2質問のどの程度が文脈依存または非事実的で、答えられない質問はモデリングにどのように影響するか？
RQ3最先端の読解モデルを対話文脈に拡張した場合、QUACで人間のパフォーマンスに近づけるか？
RQ4人間が達成できる上限のパフォーマンスはどれくらいで、現在のモデルはどの程度それから離れているか？

主な発見

モデル	F1	HEQ-Q	HEQ-D	はい / いいえ	フォローアップ	F1 (全体)
Random sentence	15.7 / 15.6	6.9 / 6.9	0.0 / 0.1	—	—	16.4 / 16.3
Majority answer	22.7 / 22.5	22.7 / 22.5	0.5 / 0.4	—	—	78.8 / 77.6
Trans. matrix (TM)	31.8 / 31.5	15.8 / 15.8	0.1 / 0.2	—	—	31.2 / 30.9
Pretrained InferSent	21.4 / 20.8	10.2 / 10.0	0.0 / 0.0	—	—	22.0 / 21.4
Logistic regression	34.3 / 33.9	22.4 / 22.2	0.6 / 0.2	—	—	34.3 / 33.8
BiDAF++ (no ctx)	51.8 / 50.2	45.3 / 43.3	2.0 / 2.2	86.4 / 85.4	59.7 / 59.0	50.1 / 48.2
BiDAF++ (w/ 1-ctx)	59.9 / 59.0	54.9 / 53.6	4.7 / 3.4	86.5 / 86.1	61.3 / 60.3	57.5 / 56.5
BiDAF++ (w/ 2-ctx)	60.6 / 60.1	55.7 / 54.8	5.3 / 4.0	86.6 / 85.7	—	61.6 / 61.3
BiDAF++ (w/ 3-ctx)	60.6 / 59.5	55.6 / 54.5	5.0 / 4.1	86.1 / 85.7	—	61.6 / 61.2
Gold NA + TM	43.0 / 42.6	27.4 / 27.4	1.0 / 0.8	—	—	41.0 / 40.6
Gold sentence + NA	72.4 / 72.7	61.8 / 62.7	9.8 / 9.7	—	—	70.8 / 71.2
Human performance	80.8 / 81.1	100 / 100	100 / 100	—	—	74.6 / 74.7

QUACには14Kの対話（100Kの質問）が含まれ、多くがオープンエンド、文脈依存、答えられない質問。
文脈を意識した強力なベースライン（対話文脈を取り入れたBiDAF++）は、文脈非依存モデルより改善するが、全タスクで人間のパフォーマンスには約20F1ポイント及ばない。
文脈の組み込み（直前の2-3ターンまで）で顕著な改善をもたらし、さらなる文脈は収穫が頭打ちになる。
多くの質問は文脈性が高い（86%、対話履歴に基づくものが44%、記事主題に言及するものが61%）
平均回答長は標準的なSQuADスタイルのタスクより長く（約15トークン）、オープンエンドの応答を反映。
F1の人間上限は80.8で、最高モデルは約60 F1、約60% HEQ-Dで、人間との差が大きく改善余地があることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。