[論文レビュー] Robust Natural Language Inference Models with Example Forgetting.
本稿では、訓練例の忘れやすさ(訓練例の難易度を測る指標)を用いて、BERTベースの自然言語推論モデルのロバスト性を向上させる手法を提案する。訓練中に忘れやすい例をフィルタリングすることで、HANSのような分布シフトが見られるベンチマークにおけるモデルの一般化性能が向上し、最適化後でさえも大規模なBERTバージョンではロバスト性の向上が見られる。
We investigate whether example forgetting, a recently introduced measure of hardness of examples, can be used to select training examples in order to increase robustness of natural language understanding models in a natural language inference task (MNLI). We analyze forgetting events for MNLI and provide evidence that forgettable examples under simpler models can be used to increase robustness of the recently proposed BERT model, measured by testing an MNLI trained model on HANS, a curated test set that exhibits a shift in distribution compared to the MNLI test set. Moreover, we show that, the “large” version of BERT is more robust than its “base” version but its robustness can still be improved with our approach.
研究の動機と目的
- 例の忘れやすさが自然言語推論におけるモデルのロバスト性を向上させうるかどうかを調査すること。
- 忘れやすさスコアに基づいて例を選択することで、分布シフト下での一般化性能が向上するかどうかを評価すること。
- BERT baseとBERT largeモデルのロバスト性を比較し、提案手法が両者にどのように効果をもたらすかを評価すること。
提案手法
- 例の忘れやすさは、微調整後のモデルの信頼度の低下として計算される。
- 忘れやすい例は、MNLIデータ上で訓練された簡易モデル(例:BiLSTM)を用いて同定される。
- BERTモデルは、最も忘れやすい例を除外したMNLIデータのフィルタリングされたサブセット上で再訓練される。
- ロバスト性は、ショートカット学習や分布シフトをテストするHANSベンチマークを用いて評価される。
- 性能向上の比較のため、本手法はBERT baseおよびBERT largeバージョンの両方へ適用される。
実験結果
リサーチクエスチョン
- RQ1例の忘れやすさを用いて、難易度の高いまたは誤解を招く訓練例を特定・フィルタリングし、モデルのロバスト性を向上させることができるか?
- RQ2BERTの事前学習中に忘れやすい例をフィルタリングすることで、HANSのような分布外ベンチマークでのパフォーマンスが向上するか?
- RQ3BERTアーキテクチャの違い(例:baseとlarge)にかかわらず、ロバスト性の向上が一貫して見られるか?
主な発見
- MNLI訓練データから忘れやすい例をフィルタリングすることで、HANSベンチマークにおけるBERTのパフォーマンスが向上し、ロバスト性の向上が示された。
- BERT largeモデルはBERT baseよりも高い本質的ロバスト性を示すが、両者とも例の忘れやすさに基づくフィルタリングによって利益を得た。
- フィルタリング後のHANSスコアの向上から、言語的ショートカットへの依存が減少したことが裏付けられた。
- 大きなBERTモデルでさえも高いパフォーマンスを示しているにもかかわらず、改善は測定可能で一貫的であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。