QUICK REVIEW

[论文解读] Pretrained Transformers Improve Out-of-Distribution Robustness

Dan Hendrycks, Xiaoyuan Liu|arXiv (Cornell University)|Apr 13, 2020

Topic Modeling参考文献 55被引用 25

一句话总结

该论文通过一个包含真实分布偏移的新基准，评估了七种数据集上NLP模型的分布外（OOD）鲁棒性。如RoBERTa等预训练Transformer模型在OOD数据上的性能下降显著较小，并在OOD泛化和检测方面显著优于旧模型，AUROC得分最高达88.7%，而非预训练模型则仅处于随机水平。

ABSTRACT

Although pretrained Transformers such as BERT achieve high accuracy on in-distribution examples, do they generalize to new distributions? We systematically measure out-of-distribution (OOD) generalization for seven NLP datasets by constructing a new robustness benchmark with realistic distribution shifts. We measure the generalization of previous models including bag-of-words models, ConvNets, and LSTMs, and we show that pretrained Transformers' performance declines are substantially smaller. Pretrained transformers are also more effective at detecting anomalous or OOD examples, while many previous models are frequently worse than chance. We examine which factors affect robustness, finding that larger models are not necessarily more robust, distillation can be harmful, and more diverse pretraining data can enhance robustness. Finally, we show where future work can improve OOD robustness.

研究动机与目标

系统评估NLP模型在多样化任务和数据偏移下的分布外（OOD）鲁棒性。
衡量模型在OOD样本上的泛化能力以及对异常输入的检测能力，超越标准的分布内评估。
识别影响OOD鲁棒性的因素，如模型规模、蒸馏和预训练数据多样性。
在真实OOD偏移下对词袋模型、LSTM、卷积神经网络和预训练Transformer进行性能基准测试。
为未来NLP中OOD鲁棒性的改进提供洞见。

提出的方法

通过使用元数据分割数据集，或配对来自不同数据生成过程的相似数据集，构建了一个新的OOD鲁棒性基准。
在情感分析、文本蕴含、问答和语义相似性任务中，引入写作风格、主题和词汇方面的分布偏移。
通过在不同数据分割或配对数据集的保留测试集上测量准确率下降，评估OOD泛化性能。
使用最大Softmax概率作为异常分数，报告AUROC和FAR95指标以衡量OOD检测性能。
在三种输入表示（BoW、word2vec、GloVe）和四种编码器类型（LSTM、ConvNet、BERT、RoBERTa）上训练并测试了13个模型。
通过对比不同预训练数据、模型规模和蒸馏设置，隔离影响鲁棒性的因素。

实验结果

研究问题

RQ1预训练Transformer与非预训练模型在泛化到分布外样本方面表现如何？
RQ2NLP模型在多大程度上能通过置信度分数检测异常或OOD输入？
RQ3增加模型规模或使用蒸馏是否能提升OOD鲁棒性？
RQ4在多样化数据上进行预训练如何影响OOD泛化和检测？
RQ5影响NLP模型OOD鲁棒性的关键因素是什么？

主要发现

如RoBERTa等预训练Transformer在OOD样本上表现出极小的性能下降——在语义相似性任务上甚至略有提升，而LSTM模型的性能下降超过35%。
在SST-2/IMDb情感分析基准上，RoBERTa在OOD测试集上达到91.0%的准确率，而BERT Base为85.0%，词袋模型（BoW）为82.4%。
在OOD检测方面，RoBERTa的AUROC达到88.7%，显著高于50%的随机机会水平，而非预训练模型通常表现接近或低于随机水平。
发现蒸馏对OOD鲁棒性具有负面影响，DistilBERT的检测性能低于BERT Base。
更大的模型并不一定更鲁棒；相反，在更多样化的数据上进行预训练能提升OOD泛化能力。
尽管RoBERTa表现优于其他模型，但本研究发现未来在检测性能方面仍有巨大改进空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。