QUICK REVIEW
[論文レビュー] Technical report on Conversational Question Answering
Ying Ju, Fubang Zhao|arXiv (Cornell University)|Sep 24, 2019
Topic Modeling参考文献 20被引用数 42
ひとこと要約
RoBERTaベースのシステムを用い、根拠タグ付け、対抗的訓練、知識蒸留および事後処理を対話型QAに適用し、CoQAテストで90.4 F1、単一モデルでの最先端性能を実現します。
ABSTRACT
Conversational Question Answering is a challenging task since it requires understanding of conversational history. In this project, we propose a new system RoBERTa + AT +KD, which involves rationale tagging multi-task, adversarial training, knowledge distillation and a linguistic post-process strategy. Our single model achieves 90.4(F1) on the CoQA test set without data augmentation, outperforming the current state-of-the-art single model by 2.6% F1.
研究の動機と目的
- 回答からの根拠情報を活用した対話型QAのファインチューニングを改善する動機づけ。
- 抽出を導くためのマルチタスク根拠タグ付けの導入。
- 頑健性を高めるための対向学習(AT)と仮想対向訓練(VAT)の導入。
- 複数の教師モデルからのソフトターゲットを学生モデルへ伝える知識蒸留(KD)の適用。
- CoQAでの評価を通じて最先端の結果を確立し、抽出型モデルの限界を分析する。
提案手法
- CoQA用の履歴を結合した入力を用いたベースライン RoBERTa セットアップ。
- 根拠タグ付けをマルチタスクとして予測を行い、Yes/No/Unkの決定に統合。
- 単語埋め込みを摺動させることでATを行い、教師なしの摺動にはVATを適用。
- 複数の教師モデルを用いたKDによりソフトターゲットを学生モデルへ提供。
- 非抽出的/別形式の回答を扱うための単語類似性ベースの後処理と、GA導入によるモデル選択でアンサンブルを行う。
- サイズ制約下での遺伝的アルゴリズムによる平均ロジットを用いた複数モデルのアンサンブル。
実験結果
リサーチクエスチョン
- RQ1根拠タグ付けと対抗的・知識蒸留型訓練はデータ拡張なしで対話型QAの性能を改善できるか?
- RQ2自由形式回答がある場合、CoQAにおける抽出モデルの実践的上限はどれくらいか?
- RQ3後処理とアンサンブルは単一モデルと比べてCoQAの性能にどう影響するか?
主な発見
| Model | In-domain | Out-of-domain | Overall |
|---|---|---|---|
| Bert-Large Baseline | 82.6 | 78.4 | 81.4 |
| BERT with History Augmented Query | 82.7 | 78.6 | 81.5 |
| Bert + Answer Verification | 83.8 | 81.9 | 82.8 |
| BERT + MMFT + ADA | 86.4 | 81.9 | 85.0 |
| ConvBERT | 87.7 | 85.4 | 86.8 |
| Google SQuAD 2.0 + MMFT | 88.5 | 86.0 | 87.8 |
| Our model | 90.9 | 89.2 | 90.4 |
| Google SQuAD 2.0 + MMFT(Ensemble) | 89.9 | 88.0 | 89.4 |
| Our model(Ensemble) | 91.4 | 89.2 | 90.7 |
| human | 89.4 | 87.4 | 88.8 |
- 単一モデルでCoQAテストで90.4 F1を達成(単一モデル中の最先端)。
- アブレーション研究の結果: ベースライン89.5 F1; +根拠タグ付け90.0; +対向訓練90.7; +知識蒸留91.0; +後処理91.3。
- 最良の単一モデル設定は開発データで91.3 F1(後処理を用いる)に到達し、テストではアンサンブルで90.7 F1(開発データで91.8)へ改善、制約付きアンサンブル。
- 9モデルのアンサンブルをGAで実施しCoQAテストで91.5 F1、単純平均(91.2)を上回る。
- 上限解析は最初の人間の参照で93.0 F1、全4人間の参照で95.1 F1を示唆し、抽出頭部の余地(4.9%)を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。