Skip to main content
QUICK REVIEW

[논문 리뷰] Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Curtis G. Northcutt, Anish Athalye|arXiv (Cornell University)|2021. 03. 26.
Machine Learning and Data Classification참고 문헌 49인용 수 103
한 줄 요약

논문은 10개의 일반 벤치마크의 테스트 세트에서 만연한 라벨 오류를 보여주고, 벤치마크 안정성에 미치는 영향을 입증하며, 테스트 라벨을 수정하여 노이즈가 더 많은 데이터에서 실제 세계 모델 성능을 더 잘 반영하도록 해야 한다고 주장한다.

ABSTRACT

We identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subsequently study the potential for these label errors to affect benchmark results. Errors in test sets are numerous and widespread: we estimate an average of at least 3.3% errors across the 10 datasets, where for example label errors comprise at least 6% of the ImageNet validation set. Putative label errors are identified using confident learning algorithms and then human-validated via crowdsourcing (51% of the algorithmically-flagged candidates are indeed erroneously labeled, on average across the datasets). Traditionally, machine learning practitioners choose which model to deploy based on test accuracy - our findings advise caution here, proposing that judging models over correctly labeled test sets may be more useful, especially for noisy real-world datasets. Surprisingly, we find that lower capacity models may be practically more useful than higher capacity models in real-world datasets with high proportions of erroneously labeled data. For example, on ImageNet with corrected labels: ResNet-18 outperforms ResNet-50 if the prevalence of originally mislabeled test examples increases by just 6%. On CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of originally mislabeled test examples increases by just 5%. Test set errors across the 10 datasets can be viewed at https://labelerrors.com and all label errors can be reproduced by https://github.com/cleanlab/label-errors.

연구 동기 및 목표

  • 비전, 언어, 음성 분야의 10개 벤치마크 데이터셋에서 테스트 세트의 라벨 오류 발생률을 정량화한다.
  • 테스트 세트 라벨 오류가 벤치마크의 안정성과 모델 선택에 어떤 영향을 미치는지 평가한다.
  • 실용적 배포 인사이트를 위한 수정된 라벨과 원래 라벨의 정확도 비교를 위한 오픈 소스 자원과 프레임워크를 제공한다.

제안 방법

  • 관측된 라벨과 실제 라벨 간의 결합 분포를 추정하기 위해 confident learning (CL)을 적용한다.
  • 주로 인간 검증이 필요한 가능성 높은 라벨 오류를 Mechanical Turk를 통해 우선적으로 검증 받아 수정된 라벨을 얻는다.
  • ImageNet에서 CL-플래그가 달린 오류와 비-CL-플래그 오류를 검증하기 위해 전문가 검토를 사용하고 오류 발생을 정량화한다.
  • 수정된 라벨과 원래 라벨의 정확도가 ImageNet과 CIFAR-10에서 모델 순위에 미치는 영향을 분석한다.
  • 테스트 세트의 노이즈 유병률을 점진적으로 변화시켜 벤치마크 불안정성과 모델 선택 민감성을 연구한다.

실험 결과

연구 질문

  • RQ1다양한 모달리티에서 널리 사용되는 ML 벤치마크의 테스트 세트에 라벨 오류가 얼마나 만연해 있는가?
  • RQ2테스트 세트 라벨 오류가 벤치마크의 안정성과 더 높은 용량의 모델이 지니는 우월성의 인식에 어떤 영향을 미치는가?
  • RQ3수정된 테스트 라벨이 모델 순위를 바꿀 수 있는가, 그리고 실제로 더 작은 모델이 더 큰 모델보다 우수할 수 있는 조건은 무엇인가?
  • RQ4라벨 수정을 재현하고 수정된 라벨 하에서의 성능을 평가하기 위한 공개 자원을 제공할 수 있는가?

주요 결과

  • 10개 데이터셋에서 평균 테스트 세트 라벨 오류율이 최소 3.3%이다.
  • ImageNet 검증 세트에 6%의 잠정 라벨 오류가 있으며; QuickDraw에는 10%가 넘는 오류가 있다(CL로 분류된 결과에서 해석).
  • MTurk를 통한 인간 검증은 알고리즘이 표시한 후보 중 약 51%가 실제로는 잘못 라벨링된 것으로 나타났다.
  • 수정된 라벨을 사용할 때 벤치마크 순위는 대체로 동일하게 남지만, 더 높은 용량의 모델은 노이즈에 비례해 더 크게 영향을 받아 불안정성이 증가한다.
  • ImageNet에서 원래 잘못 라벨링된 예가 약 6% 증가하면 ResNet-18이 ResNet-50보다 나을 수 있다; CIFAR-10에서는 잘못 라벨링된 비율이 약 5% 증가하면 VGG-11이 VGG-19를 능가할 수 있다.
  • 수정 가능한 부분에서의 정확도(A*)은 노이즈가 많은 테스트 데이터에서 원래 정확도(Ã)로 관찰된 여러 명백한 이익을 역전시킬 수 있으며, 실용적 배포에 시사점을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.