QUICK REVIEW

[論文レビュー] Adversarial Filters of Dataset Biases

Ronan Le Bras, Swabha Swayamdipta|arXiv (Cornell University)|Feb 10, 2020

Adversarial Robustness in Machine Learning被引用数 125

ひとこと要約

この論文は AFLite を分析します。AFLite はモデルベースの反復的なフィルタリング手法で、データセットのバイアスを除去して偽の相関を低減し、分布外の一般化を改善する一方で、主要ベンチマークにおける分布内の性能を大幅に低下させます。

ABSTRACT

Large neural models have demonstrated human-level performance on language and vision benchmarks, while their performance degrades considerably on adversarial or out-of-distribution samples. This raises the question of whether these models have learned to solve a dataset rather than the underlying task by overfitting to spurious dataset biases. We investigate one recently proposed approach, AFLite, which adversarially filters such dataset biases, as a means to mitigate the prevalent overestimation of machine performance. We provide a theoretical understanding for AFLite, by situating it in the generalized framework for optimum bias reduction. We present extensive supporting evidence that AFLite is broadly applicable for reduction of measurable dataset biases, and that models trained on the filtered datasets yield better generalization to out-of-distribution tasks. Finally, filtering results in a large drop in model performance (e.g., from 92% to 62% for SNLI), while human performance still remains high. Our work thus shows that such filtered datasets can pose new research challenges for robust generalization by serving as upgraded benchmarks.

研究の動機と目的

データセットのバイアスがモデル性能の過大評価を生む問題を動機づける。
最適なバイアス低減のための理論的枠組みと実践的な近似を提供する。
NLP および vision タスク全般で AFLite を経験的に検証する。
バイアスをフィルタリングすることが分布内と分布外の性能にどう影響するかを示す。

提案手法

形式的な representation-bias 目的を定義し、AFOpt を理想的だが困難なバイアス低減ターゲットとして定義する。
AFLite を、高く予測可能なインスタンスを反復的に除去する予測可能性スコア p(i) を用いたスケーラブルな近似として導入する。
p(i) を、データのランダム分割で訓練されたモデルのアウトオブサンプル予測によって計算する。
サイズ n または早期停止 τ に達するまで、各反復で最高 k 個の p(i) が高いインスタンスを削除する貪欲なスライシング手順を用いる。
事前計算された特徴表現 Φ(X) とモデルファミリー M を適用して予測可能性を推定する。
アプローチを、SNLI、MultiNLI、QNLI、ImageNet を含む NLP および vision ベンチマークでデモンストレーションする。

実験結果

リサーチクエスチョン

RQ1AFLite は、明示的に知られているアーティファクトを超えるデータセットバイアスを信頼性高く取り除けるか。
RQ2AFLite でフィルタリングしたデータで訓練されたモデルは分布外タスクに対してより良く一般化するか。
RQ3AFLite は NLP および vision データセット全体の分布内ベンチマーク性能にどのような影響を与えるか。
RQ4AFLite は異なる特徴表現とモデルファミリーに対して頑健か。

主な発見

AFLite は検出可能なデータセットバイアスを減らし、モデルにとってベンチマークを難しくする一方で、人間の性能は相対的に高いままである。
AFLite-filtered データで訓練したモデルは、HANS、NLI Diagnostics、Stress tests、Adversarial NLI などの分布外タスクで一般化が改善される。
SNLI では、AFLite-filtered データがドメイン内のモデル精度を劇的に低下させる（例: 強力なモデルで高90台から約60台へ）、一方人間の性能は高いまま。
NLP では、RoBERTa、BERT、ESIM+GloVe のベースラインを跨いでドメイン内精度が低下し、偏りがありながらも容易な例が除去されたことを示す。
vision では、AFLite-filtered ImageNet データでの訓練は、標準的な検証で大幅な減少にもかかわらず、敵対的な Out-of-Distribution セットで約2%の絶対的なゲインを生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。