QUICK REVIEW

[論文レビュー] Pretrained Transformers Improve Out-of-Distribution Robustness

Dan Hendrycks, Xiaoyuan Liu|arXiv (Cornell University)|Apr 13, 2020

Topic Modeling参考文献 55被引用数 25

ひとこと要約

この論文は、7つのデータセットを用いて、現実的な分布シフトを再現する新しいベンチマークを用いて、NLPモデルの分布外（OOD）ロバストネスを評価している。事前学習されたトランスフォーマー、例えばRoBERTaは、OODデータにおける性能低下が著しく小さく、従来のモデルよりもOOD一般化および検出性能で優れている。非事前学習モデルの確率的レベル（chance level）に対して、AUROCスコアは最大88.7%に達する。

ABSTRACT

Although pretrained Transformers such as BERT achieve high accuracy on in-distribution examples, do they generalize to new distributions? We systematically measure out-of-distribution (OOD) generalization for seven NLP datasets by constructing a new robustness benchmark with realistic distribution shifts. We measure the generalization of previous models including bag-of-words models, ConvNets, and LSTMs, and we show that pretrained Transformers' performance declines are substantially smaller. Pretrained transformers are also more effective at detecting anomalous or OOD examples, while many previous models are frequently worse than chance. We examine which factors affect robustness, finding that larger models are not necessarily more robust, distillation can be harmful, and more diverse pretraining data can enhance robustness. Finally, we show where future work can improve OOD robustness.

研究の動機と目的

多様なタスクとデータシフトを対象として、NLPモデルの分布外（OOD）ロバストネスを体系的かつ評価すること。
標準的なインディストリビューション評価を超えて、モデルがOOD例にどの程度一般化できるか、および異常入力を検出できるかを測定すること。
モデルサイズ、蒸留（distillation）、事前学習データの多様性といった要因がOODロバストネスに与える影響を特定すること。
袋の単語（BoW）、LSTM、ConvNets、事前学習されたトランスフォーマーの性能を、現実的なOODシフトの下でベンチマーク化すること。
今後の研究がNLPにおけるOODロバストネスをどのように向上させられるかのインサイトを提供すること。

提案手法

メタデータの使用や、異なるデータ生成プロセスに由来する類似のデータセットをペアリングすることで、新しいOODロバストネスベンチマークを構築した。
感情分析、テキスト帰属関係、質問応答、意味的類似度のタスクにおいて、文体、トピック、語彙の分布シフトを用いた。
異なるデータ分割またはペアリングされたデータセットからの保持テストセットにおける精度低下を用いて、OOD一般化を評価した。
最大ソフトマックス確率を異常スコアとして用い、AUROCおよびFAR95指標を報告することで、OOD検出性能を測定した。
3種類の入力表現（BoW、word2vec、GloVe）と4種類のエンコーダタイプ（LSTM、ConvNet、BERT、RoBERTa）を用いて、合計13のモデルを訓練および評価した。
事前学習データの多様性、モデルサイズ、蒸留の違いを比較することで、ロバストネス要因を分離した。

実験結果

リサーチクエスチョン

RQ1事前学習されたトランスフォーマーは、非事前学習モデルと比較して、分布外例への一般化においてどの程度優れているか？
RQ2信頼度スコアを用いて、NLPモデルは異常またはOOD入力をどの程度検出できるか？
RQ3モデルサイズの増大や蒸留は、OODロバストネスを向上させるか？
RQ4多様なデータで事前学習することで、OOD一般化および検出性能はどのように変化するか？
RQ5NLPモデルにおけるOODロバストネスに影響を与える主な要因は何か？

主な発見

事前学習されたトランスフォーマー、例えばRoBERTaは、OOD例において性能低下が著しく小さく、意味的類似度タスクでは精度がわずかに上昇した。一方、LSTMモデルは35%以上の低下を示した。
SST-2/IMDb感情分析ベンチマークにおいて、RoBERTaはOODテストセットで91.0%の精度を達成した。一方、BERT Baseは85.0%、BoWモデルは82.4%であった。
OOD検出において、RoBERTaは88.7%のAUROCを達成し、50%の確率的レベル（random chance level）を著しく上回った。一方、非事前学習モデルはしばしば確率的レベル近くまたはそれ以下であった。
蒸留はOODロバストネスに悪影響を及べることが判明した。DistilBERTはBERT Baseよりも検出性能が低かった。
大きなモデルが必ずしもよりロバストであるとは限らず、むしろ多様なデータで事前学習されたモデルがOOD一般化を改善した。
RoBERTaが他のモデルを上回ったが、特に検出性能において、今後の改善の余地が著しくあることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。