QUICK REVIEW

[論文レビュー] On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law

Damien Teney, Kushal Kafle|arXiv (Cornell University)|May 19, 2020

Multimodal Machine Learning Applications参考文献 41被引用数 76

ひとこと要約

本研究は VQA-CP OOD ベンチマークを批評し、3つの実験的欠陥を暴露し、単純なベースラインが最先端を打ち負かせることを示し、OOD テストを用いた一般化の評価を適切に行うための指針を提案します。

ABSTRACT

Out-of-distribution (OOD) testing is increasingly popular for evaluating a machine learning system's ability to generalize beyond the biases of a training set. OOD benchmarks are designed to present a different joint distribution of data and labels between training and test time. VQA-CP has become the standard OOD benchmark for visual question answering, but we discovered three troubling practices in its current use. First, most published methods rely on explicit knowledge of the construction of the OOD splits. They often rely on ``inverting'' the distribution of labels, e.g. answering mostly 'yes' when the common training answer is 'no'. Second, the OOD test set is used for model selection. Third, a model's in-domain performance is assessed after retraining it on in-domain splits (VQA v2) that exhibit a more balanced distribution of labels. These three practices defeat the objective of evaluating generalization, and put into question the value of methods specifically designed for this dataset. We show that embarrassingly-simple methods, including one that generates answers at random, surpass the state of the art on some question types. We provide short- and long-term solutions to avoid these pitfalls and realize the benefits of OOD evaluation.

研究の動機と目的

VQA および同様のタスクにおける訓練バイアスを超えた一般化の堅牢な評価を動機づける。
VQA-CP のような OOD ベンチマークを損なう3つの実用的な欠陥を特定し、説明する。
これらの欠陥のために、非常に単純なベースラインがVQA-CPで複雑な手法を上回ることを示す。
OOD 評価の価値を守り、将来のベンチマーク設計を導く具体的な勧告を提案する。

提案手法

ランダム予測や反転ランダム予測を含む単純なベースラインを説明・評価し、OOD の悪用がどのように発生するかを明らかにする。
学習済みベースライン、トップ回答マスキング、ランダム画像正則化など、さまざまなベースラインと単純な正則化案を導入・評価し、OOD およびドメイン内性能への影響を検証する。
モデル選択に OOD テストセットを使用し、ドメイン内スプリットで再訓練することが、OOD ベンチマークの本来の目的を歪める様子を分析する。
VQA-v2 での再訓練を特に行った場合、OOD 高性能がドメイン内性能の低下を招くという実証的証拠を提供する。

実験結果

リサーチクエスチョン

RQ1現在の VQA-CP 評価実践は、どのようにしてOODスプリットの意図しない悪用を可能にしているのか。
RQ2モデル選択に OOD テストセットを使用することが、報告された一般化結果にどのような影響を与えるのか。
RQ3ドメイン内スプリット（例：VQA-v2）で再訓練することが、OOD とドメイン内の性能評価にどのように影響するのか。
RQ4OOD ベンチマークの誤用を明らかにし緩和するためのベースラインや方法論は何か、より良いベンチマーク設計を導くには？

主な発見

非常に単純な方法、ランダム予測を含むものが、データセットのバイアスを悪用して、いくつかのVQA-CPの質問タイプで最先端を上回ることができる。
OOD テストセットをモデル選択に使用すると適応的過学習とOIN のスコアの過大化につながり、真の一般化を覆い隠す。
VQA-v2 で再訓練してドメイン内性能を評価することは、OOD 効果の大幅な低下を隠しており、主張される一般化の利点を疑問視させる。
非常に簡単なランダム反転ベースラインは、Yes/No および数値質問で非常に高い OOD 精度を達成でき、Yes/No/数値質問が真の理解なしに見かけの改善をもたらすことを浮き彫りにしている。
ランダム画像正則化はドメイン内とOODの性能のトレードオフを調整できるが、その効果はしばしばYes/No/数値質問に支配され、一部指標で一貫して有益とは限らない。
著者らは、ドメイン内検証データを保持し、非Yes/No/数値質問に分析を集中させることで、真の一般化をよりよく反映し、ベンチマークの不正利用に抵抗することを主張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。