QUICK REVIEW

[论文解读] UnifiedQA-v2: Stronger Generalization via Broader Cross-Format Training

Daniel Khashabi, Yeganeh Kordi|arXiv (Cornell University)|Feb 23, 2022

Topic Modeling被引用 29

一句话总结

UnifiedQA-v2 在跨越多种格式的20个数据集上训练一个单一的问答模型，相对于原始 UnifiedQA，在同域和跨域上都获得了一致的改进。

ABSTRACT

We present UnifiedQA-v2, a QA model built with the same process as UnifiedQA, except that it utilizes more supervision -- roughly 3x the number of datasets used for UnifiedQA. This generally leads to better in-domain and cross-domain results.

研究动机与目标

评估将监督扩展到更多问答数据集是否能在不同数据集和领域中提升性能。
量化在同域和跨域相对于 UnifiedQA 使用更广泛跨格式训练的收益。
分析哪种模型规模从更广泛的监督中获益最大。

提出的方法

使用与 UnifiedQA 相同的基于 T5 的架构和训练协议，但在 20 个涵盖抽取、生成式、选择题和是/否格式的问答数据集上进行训练。
由于监督规模更大，训练至 350k 步（较 UnifiedQA 的 120k）。
在所有目标数据集中对固定检查点进行评估（v2: 250k，v1: 100k），覆盖同域和跨域设置。
报告每个数据集的指标及聚合比较（v2-v1 与 v2>v1）与最佳的前沿专门模型相比。
按问答格式对数据集进行颜色编码以分析跨格式的迁移。

实验结果

研究问题

RQ1增加监督的问答数据集数量是否能在训练分布内外提升泛化？
RQ2哪种模型规模从更广泛的跨格式监督中获益最大？
RQ3与 UnifiedQA 相比，UnifiedQA-v2 在未见数据集上的表现如何（跨域？）
RQ4从 UnifiedQA 到 UnifiedQA-v2 在域内和域外基准上的整体收益是多少？

主要发现

UnifiedQA-v2 在数据集和规模上的平均改进为 1-4%。
中等规模的“大型”模型显示最大提升（在域内外约 4.2-4.5%）。
大多数具有更广泛监督的模型在多数数据集上优于其 v1 对应版本（v2>v1%），所有报道的数字均高于 50%。
在域内监督较少的数据集上，增益更为明显，表明在数据有限的设置下更广泛的训练有助于迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。