QUICK REVIEW

[論文レビュー] UnifiedQA-v2: Stronger Generalization via Broader Cross-Format Training

Daniel Khashabi, Yeganeh Kordi|arXiv (Cornell University)|Feb 23, 2022

Topic Modeling被引用数 29

ひとこと要約

UnifiedQA-v2 は単一の QA モデルを、20 の異なる形式を横断するより広いデータセット群で訓練し、元の UnifiedQA に対して内場・外場の改善を一貫して実現する。

ABSTRACT

We present UnifiedQA-v2, a QA model built with the same process as UnifiedQA, except that it utilizes more supervision -- roughly 3x the number of datasets used for UnifiedQA. This generally leads to better in-domain and cross-domain results.

研究の動機と目的

より多くの QA データセットへの監視情報を拡張することが、データセットとドメイン全体で性能を向上させるかを評価する。
より広い形式横断の訓練を用いた場合、UnifiedQA に対する同一ドメイン内外の利益を定量化する。
より広い監視によって最も恩恵を受けるモデルサイズを分析する。

提案手法

UnifiedQA と同じ T5 ベースのアーキテクチャと訓練プロトコルを用いるが、抽出型・要約型・多肢選択型・はい/いいえ形式を含む 20 の QA データセットで訓練する。
より大きな監督情報のため、350k ステップで訓練する（UnifiedQA の 120k と比較）。
すべてのターゲットデータセットに対して、固定のチェックポイントを評価する（v2: 250k、v1: 100k）。内-domain と out-of-domain の設定の両方で。
データセットごとの指標と、集計比較（v2-v1 および v2>v1）を、以前の最高の専門モデルと比較して報告する。
QA 形式別にデータセットをカラーコードして、形式間の移行を分析する。

実験結果

リサーチクエスチョン

RQ1監視対象の QA データセット数を増やすことで、トレーニング分布内外の一般化が改善されるか？
RQ2どのモデルサイズがより広い形式横断の監督によって最も恩恵を受けるか？
RQ3未知の（ドメイン外の）データセットに対する UnifiedQA-v2 の性能は、UnifiedQAと比較してどうか？
RQ4UnifiedQA から UnifiedQA-v2 へ移行したときの、内ドメインおよびドメイン外のベンチマークでの総合的な利得はどの程度か？

主な発見

UnifiedQA-v2 は、データセットとサイズを跨いで UnifiedQA より平均して 1-4% の改善をもたらす。
中規模の「large」モデルが最大の利得を示す（内-domain/外-domain で約 4.2-4.5%）。
より広い監督を受けたほとんどのモデルは、多くのデータセットで v1 の対比を上回り（v2>v1%）、報告されたすべての数値は 50% を超える。
監督が小さいドメイン内データセットでは利得がより顕著である。広範な訓練は特に限られた-data 設定での転移を助けることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。