[论文解读] Unifying Question Answering, Text Classification, and Regression via Span Extraction
本文提出了一种统一框架,用于问答、文本分类和回归任务,采用跨度抽取作为共同的输出机制。通过将所有三项任务重新表述为使用共享 BERT 架构的跨度抽取问题,该方法在基准测试中实现了优越或相当的性能,尤其是在低数据和多任务设置下,表明与统一的跨度抽取归纳偏置相比,任务特定的输出头不仅不必要,而且效果较差。
Even as pre-trained language encoders such as BERT are shared across many tasks, the output layers of question answering, text classification, and regression models are significantly different. Span decoders are frequently used for question answering, fixed-class, classification layers for text classification, and similarity-scoring layers for regression tasks, We show that this distinction is not necessary and that all three can be unified as span extraction. A unified, span-extraction approach leads to superior or comparable performance in supplementary supervised pre-trained, low-data, and multi-task learning experiments on several question answering, text classification, and regression benchmarks.
研究动机与目标
- 消除 NLP 模型中的任务特定输出头(例如分类或回归层)。
- 将问答、文本分类和回归统一到单一的跨度抽取框架下。
- 评估在使用跨度抽取时,中间任务训练(STILTs)是否能提升所有三种任务类型的性能。
- 通过在多任务学习中结合问答和文本分类数据集,探索跨任务迁移。
- 评估在有限训练数据下,跨度抽取方法的鲁棒性。
提出的方法
- 通过在输入序列末尾附加类别标签或分桶的值,将文本分类和回归任务重新表述为跨度抽取问题。
- 使用预训练的 BERT 编码器对输入文本进行编码,通过在输入序列上预测起始和结束标记来执行跨度抽取。
- 对于分类任务,将所有类别标签作为跨度候选包含在输入文本中;对于回归任务,使用离散化的值桶作为候选。
- 通过在最终任务微调前先在辅助任务上微调,应用中间任务训练(STILTs),使用相同的跨度抽取头。
- 使用共享参数和单一跨度抽取头,对所有任务进行完全联合的多任务训练。
- 使用标准的跨度抽取损失(例如起始和结束位置的交叉熵)进行优化,无需任务特定的分类或相似度层。
实验结果
研究问题
- RQ1能否通过统一的跨度抽取框架,有效将文本分类和回归与问答任务统一?
- RQ2当应用于跨度抽取模型时,中间任务训练(STILTs)是否能提升问答、分类和回归任务的性能?
- RQ3在多任务学习中,将问答和文本分类数据集结合使用,是否能获得优于单独使用任一数据集的性能?
- RQ4尽管存在潜在的负迁移,完全联合的跨度抽取模型是否能优于任务特定模型?
- RQ5在低数据环境下,跨度抽取方法与传统任务特定头相比表现如何?
主要发现
- 在 GLUE 基准测试中,跨度抽取方法在低数据和多任务设置下表现优于或匹配任务特定模型。
- 在使用跨度抽取时,中间任务训练(STILTs)显著提升了所有三种任务类型的性能,证明其在传统分类和回归头之外的有效性。
- 在多任务学习中结合问答和文本分类数据集,可提升两者性能,部分任务准确率提升超过 9%。
- 完全联合的跨度抽取模型实现了强于单任务模型的多任务性能,尽管在个别任务(如 SQuAD 和 MNLI)上表现较差,表明多任务学习存在权衡。
- 在有限训练数据下,跨度抽取方法比任务特定头更具鲁棒性,表现出更好的泛化能力。
- 更简洁的输入表述(例如更短的类别描述)比详细解释表现更好,因为其减少了跨度搜索空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。