Skip to main content
QUICK REVIEW

[論文レビュー] Learning from others' mistakes: Avoiding dataset biases without modeling them

Victor Sanh, Thomas Wolf|arXiv (Cornell University)|Dec 2, 2020
Topic Modeling参考文献 48被引用数 51
ひとこと要約

本論文は、弱く偏った教師(小規模モデル)をエキスパートの結合系(product-of-experts)として活用することで、主モデルが教師の誤りから学べるようにし、偏りを明示的にモデリングせずに、NLPタスク全体で分布外(OOD)に対するロバスト性を向上させる堅牢な主モデルを訓練する。

ABSTRACT

State-of-the-art natural language processing (NLP) models often learn to model dataset biases and surface form correlations instead of features that target the intended underlying task. Previous work has demonstrated effective methods to circumvent these issues when knowledge of the bias is available. We consider cases where the bias issues may not be explicitly identified, and show a method for training models that learn to ignore these problematic correlations. Our approach relies on the observation that models with limited capacity primarily learn to exploit biases in the dataset. We can leverage the errors of such limited capacity models to train a more robust model in a product of experts, thus bypassing the need to hand-craft a biased model. We show the effectiveness of this method to retain improvements in out-of-distribution settings even if no particular bias is targeted by the biased model.

研究の動機と目的

  • 弱い学習機が、明示的な偏り設計を必要とせず、データセットのバイアスを自然に捉えることを示す。
  • PoE(product-of-experts)訓練 regime が偏りへの依存を減らし、OODでのロバスト性を改善することを示す。
  • 弱学習機の容量と、インディストリビューション内精度、および分布外一般化のトレードオフを検討する。
  • NLI(MNLI/HANS)およびQA(SQuAD)ベンチマークと合成バイアスシナリオで手法を検証する。

提案手法

  • データ上で標準のクロスエントロピーを用いて弱学習器 f_W を訓練する。
  • f_W を凍結し、主モデル f_M を PoE 組み合わせで訓練する:e = w + m、ここで softmax(e) ∝ softmax(w) ⊙ softmax(m)。
  • 弱学習機の誤りと標準予測の学習をバランスさせるため、CE と PoE CE を組み合わせた多目的損失を最適化する。
  • 弱学習機の容量を変化させ、インディストリビューション内と分布外の性能への影響を検討する。
  • 対決的/デバイスーデータセット(例:MNLI-HANS、Adversarial SQuAD)でロバスト性を評価し、バイアス低減との相関を分析する。
  • 主モデルの勾配に影響を与える弱学習機の確信度と正確性の役割を議論する。

実験結果

リサーチクエスチョン

  • RQ1弱い、バイアスを持つモデルは、明示的なバイアス指定なしにデータセットのバイアスを明らかにすることができるか?
  • RQ2凍結された弱学習機を用いたPoEで主モデルを訓練することは、インディストリビューション内の性能を大きく損なうことなく、分布外データへの一般化を改善するか?
  • RQ3弱学習機の容量は、タスク間でのバイアス緩和とロバスト性のトレードオフにどのように影響するか?
  • RQ4既知のバイアス信号(または未知のバイアス)への依存を、手作業で偏ったモデルを作成することなく低減することは可能か?

主な発見

損失MNLIHANS難易度
Clark et al. (2019) PoE82.9764.6771.16
Mahabadi et al. (2020) PoE84.1995.9933.30
Utama et al. (2020) PoE80.7086.1355.20
Utama et al. (2020) PoE + An.81.9088.4047.13
BERT-base - CE (baseline)84.52 ± 0.2798.12 ± 0.6226.74 ± 6.15
TinyBERT - Weak - CE66.93 ± 0.1299.80 ± 0.090.44 ± 0.26
BERT-base - Main - PoE81.35 ± 0.4081.13 ± 8.1056.41 ± 5.91
BERT-base - Main - PoE + CE83.32 ± 0.2494.51 ± 0.8241.35 ± 8.25
  • 弱い学習機は、 shallow heuristics およびデータセットの既知バイアスを反映する高確信度の偏った誤りに依存する傾向がある。
  • PoE 訓練は、弱学習機のバイアスへのモデル依存を低減し、分布外の性能を向上させる一方で、インディストリビューション内の精度にはある程度のトレードオフが生じる。
  • MNLI/HANS では、PoE ベースの主モデルがヒューリスティック-非含意ケースの処理で有意な改善を達成しつつ、MNLI の性能も競合的に維持。
  • Adversarial SQuAD ベンチマークでは、PoE(CEあり/なしを問わず)で対抗的ロバスト性が向上し、マルチ損失最適化を用いた場合に特に効果が大きいことがある。
  • 弱学習機の容量を変えると、小型の弱学習機の方がOD/IDのバランスが取りやすく、より大きな弱学習機はID精度を犠牲にしてODのロバスト性を高めることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。