QUICK REVIEW

[論文レビュー] Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases

Christopher Clark, Mark Yatskar|arXiv (Cornell University)|Sep 9, 2019

Multimodal Machine Learning Applications参考文献 58被引用数 30

ひとこと要約

本稿では、既知のデータセットバイアスを軽減することでモデルのロバスト性を向上させるアンサンブルベースの手法を提案する。バイアス専用モデルを訓練して表面的なパターンを捉え、それをロバストモデルとアンサンブルして学習させることで、ドメイン外のVQAベンチマークで最大12ポイントの向上を達成し、5つの多様なデータセットで一貫した改善が得られた。

ABSTRACT

State-of-the-art models often make use of superficial patterns in the data that do not generalize well to out-of-domain or adversarial settings. For example, textual entailment models often learn that particular key words imply entailment, irrespective of context, and visual question answering models learn to predict prototypical answers, without considering evidence in the image. In this paper, we show that if we have prior knowledge of such biases, we can train a model to be more robust to domain shift. Our method has two stages: we (1) train a naive model that makes predictions exclusively based on dataset biases, and (2) train a robust model as part of an ensemble with the naive one in order to encourage it to focus on other patterns in the data that are more likely to generalize. Experiments on five datasets with out-of-domain test sets show significantly improved robustness in all settings, including a 12 point gain on a changing priors visual question answering dataset and a 9 point gain on an adversarial question answering test set.

研究の動機と目的

トレーニングデータ内の表面的で一般化できないパターンに依存するニューラルモデルがドメインシフト下で失敗する問題に対処すること。
バイアスパターンが成り立たないドメイン外および悪意のあるテストセットでモデルのロバスト性を向上させること。
人間が特定したデータセットバイアスを、それらに依存しないようにモデルを訓練するためのツールとして活用し、より良い一般化を実現すること。
本モデルが代替的でより一般化可能な戦略を学ぶように促すアンサンブル学習フレームワークを開発すること。
テキスト帰属関係、読解、視覚的質問応答を含む多様なタスクにおいて、複数のバイアスロバストネスベンチマークを用いて評価すること。

提案手法

バイアスにのみ依存するモデルを訓練し、知られているデータセットバイアス（例：キーワードの存在や質問タイプの事前確率）を、バイアスと相関する入力特徴のみを用いて活用する。
この事前に訓練されたバイアス専用モデルを、トレーニング中にロバストモデルとのアンサンブルの一部として使用する。
予測を組み合わせるためのアンサンブル手法（例：エキスパートの積や学習可能混合）を適用し、ロバストモデルがバイアス専用モデルの行動を再現しないように促す。
学習可能混合手法にエントロピー正則化ペナルティを組み込み、モデルがバイアス専用コンponentに過剰に依存するのを防ぐ。
推論時にはバイアス専用コンponentに影響されないロバストモデルの予測のみを用いる。
ドメインシフト下でのロバストネスを評価するため、合成および実世界のチャレンジデータセット（例：VQA-CP、TriviaQA-CP、HANS、悪意のあるSQuAD）を構築する。

実験結果

リサーチクエスチョン

RQ1トレーニング中に既知のデータセットバイアスを明示的にモデル化・除去することで、ドメインシフトに対するモデルのロバスト性を向上させられるか？
RQ2バイアス専用モデルとアンサンブルで学習するロバストモデルは、標準的なトレーニングに比べてより良い一般化性能を示すか？
RQ3エキスパートの積と正則化付き学習可能混合の異なるアンサンブル戦略は、バイアス軽減においてどのように比較されるか？
RQ4この手法は、異なる種類の既知のバイアスを持つ多様なNLPおよびビジョンタスクにどの程度一般化可能か？
RQ5異なるバイアスタイプやデータセットにおいて、インドメイン性能とドメイン外ロバストネスのトレードオフはどのように変化するか？

主な発見

エントロピー正則化付きの学習可能混合アンサンブル手法が最も優れた性能を示し、VQA-CPデータセットでドメイン外正答率が最大12ポイント向上した。
悪意のあるSQuADベンチマークでは、強力なベースラインより9ポイントの向上を達成し、先行研究を著しく上回った。
TriviaQA-CPでは、人物中心のテストセットで6ポイント、場所中心のセットで4.5ポイントの向上を達成し、インドメイン性能の低下は最小限に抑えられた。
バイアス積手法は一貫したがやや低い向上を示したのに対し、リウェイトベースラインは大多数のデータセットで効果が低かった。
エントロピーペナルティ付きの学習可能混合手法により、バイアス専用モデルへの依存度が低下し、平均g(x_i)値が5.01から0.25に低下した。これは効果的な分離を示している。
この手法は、合成的・悪意のある・プリオン変更型ベンチマークを含む5つの多様なデータセットで有効であった。これは広範な適用可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。