QUICK REVIEW

[論文レビュー] Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Curtis G. Northcutt, Anish Athalye|arXiv (Cornell University)|Mar 26, 2021

Machine Learning and Data Classification参考文献 49被引用数 103

ひとこと要約

この論文は、10の一般的なベンチマークのテストセットにおける広範なラベルエラーを示し、それらがベンチマークの安定性に与える影響を実証し、特にノイズの多いデータに対して実世界のモデル性能をより反映するようテストラベルを訂正することを主張します。

ABSTRACT

We identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subsequently study the potential for these label errors to affect benchmark results. Errors in test sets are numerous and widespread: we estimate an average of at least 3.3% errors across the 10 datasets, where for example label errors comprise at least 6% of the ImageNet validation set. Putative label errors are identified using confident learning algorithms and then human-validated via crowdsourcing (51% of the algorithmically-flagged candidates are indeed erroneously labeled, on average across the datasets). Traditionally, machine learning practitioners choose which model to deploy based on test accuracy - our findings advise caution here, proposing that judging models over correctly labeled test sets may be more useful, especially for noisy real-world datasets. Surprisingly, we find that lower capacity models may be practically more useful than higher capacity models in real-world datasets with high proportions of erroneously labeled data. For example, on ImageNet with corrected labels: ResNet-18 outperforms ResNet-50 if the prevalence of originally mislabeled test examples increases by just 6%. On CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of originally mislabeled test examples increases by just 5%. Test set errors across the 10 datasets can be viewed at https://labelerrors.com and all label errors can be reproduced by https://github.com/cleanlab/label-errors.

研究の動機と目的

vision、language、および audio の10のベンチマークデータセットにおけるテストセットのラベルエラーの有病率を定量化する。
テストセットのラベルエラーがベンチマークの安定性とモデル選択に与える影響を評価する。
実践的なデプロイメントの洞察のため、訂正後と元のテスト精度を評価するオープンソース資源とフレームワークを提供する。

提案手法

テストセットにおける観測ラベルと真のラベルの同時分布を推定するために confident learning (CL) を適用する。
Mechanical Turk を介した人間による検証の優先度を高め、可能性が高いラベルエラーの訂正ラベルを取得する。
ImageNet における CL-フラグあり/なしのエラーを専門家レビューで検証し、エラーの有病率を定量化する。
ImageNet および CIFAR-10 における訂正後と元のテスト精度がモデルのランキングに与える影響を分析する。
テストセットのノイズの有病率を段階的に変化させ、ベンチマークの不安定性とモデル選択の感度を調べる。

実験結果

リサーチクエスチョン

RQ1モダリティを横断する広く使用されているMLベンチマークのテストセットにおけるラベルエラーの有病率はどの程度か。
RQ2テストセットのラベルエラーはベンチマークの安定性と高容量モデルの優位性とどのように影響するか。
RQ3訂正後のテストラベルはモデルのランキングを変えるか、実務で小さなモデルが大きなモデルを上回るのはどのような条件か。
RQ4ラベル訂正を再現し、訂正後のラベルでの性能を評価するオープンリソースを提供できるか。

主な発見

10データセットにわたる平均のテストセットラベルエラー率は少なくとも3.3%である。
ImageNet validationセットには6%の推定ラベルエラーが含まれており、QuickDrawには10%を超えるエラーが含まれている（CL分類結果から解釈）。
MTurkによる人間の検証では、アルゴリズムがフラグした候補の約51%がデータセット全体で実際には誤ラベリングであることが平均して示された。
ベンチマークのランキングは訂正後のラベルを使用しても概ね同じだが、高容量モデルはノイズをより不均等に反映し、誤ラベリングデータの prevalence が増えるにつれて不安定性が高まる。
ImageNet では、元々誤ラベリングの例の有病率が約6%増加するとResNet-18がResNet-50を上回る可能性がある。CIFAR-10 では、誤ラベリング有病率が約5%増加するとVGG-11がVGG-19を上回る可能性がある。
訂正可能なサブセットにおける訂正後の精度（A*）は、ノイズの多いテストデータで元の精度（Ã）で観測された多くの明らかな利得を反転させる可能性があり、実務的なデプロイメントへの含意を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。