QUICK REVIEW

[논문 리뷰] Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

Curtis G. Northcutt, Anish Athalye|arXiv (Cornell University)|2021. 03. 26.

Machine Learning and Data Classification참고 문헌 49인용 수 103

한 줄 요약

논문은 10개의 일반 벤치마크의 테스트 세트에서 만연한 라벨 오류를 보여주고, 벤치마크 안정성에 미치는 영향을 입증하며, 테스트 라벨을 수정하여 노이즈가 더 많은 데이터에서 실제 세계 모델 성능을 더 잘 반영하도록 해야 한다고 주장한다.

ABSTRACT

We identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subsequently study the potential for these label errors to affect benchmark results. Errors in test sets are numerous and widespread: we estimate an average of at least 3.3% errors across the 10 datasets, where for example label errors comprise at least 6% of the ImageNet validation set. Putative label errors are identified using confident learning algorithms and then human-validated via crowdsourcing (51% of the algorithmically-flagged candidates are indeed erroneously labeled, on average across the datasets). Traditionally, machine learning practitioners choose which model to deploy based on test accuracy - our findings advise caution here, proposing that judging models over correctly labeled test sets may be more useful, especially for noisy real-world datasets. Surprisingly, we find that lower capacity models may be practically more useful than higher capacity models in real-world datasets with high proportions of erroneously labeled data. For example, on ImageNet with corrected labels: ResNet-18 outperforms ResNet-50 if the prevalence of originally mislabeled test examples increases by just 6%. On CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of originally mislabeled test examples increases by just 5%. Test set errors across the 10 datasets can be viewed at https://labelerrors.com and all label errors can be reproduced by https://github.com/cleanlab/label-errors.

연구 동기 및 목표

비전, 언어, 음성 분야의 10개 벤치마크 데이터셋에서 테스트 세트의 라벨 오류 발생률을 정량화한다.
테스트 세트 라벨 오류가 벤치마크의 안정성과 모델 선택에 어떤 영향을 미치는지 평가한다.
실용적 배포 인사이트를 위한 수정된 라벨과 원래 라벨의 정확도 비교를 위한 오픈 소스 자원과 프레임워크를 제공한다.

제안 방법

관측된 라벨과 실제 라벨 간의 결합 분포를 추정하기 위해 confident learning (CL)을 적용한다.
주로 인간 검증이 필요한 가능성 높은 라벨 오류를 Mechanical Turk를 통해 우선적으로 검증 받아 수정된 라벨을 얻는다.
ImageNet에서 CL-플래그가 달린 오류와 비-CL-플래그 오류를 검증하기 위해 전문가 검토를 사용하고 오류 발생을 정량화한다.
수정된 라벨과 원래 라벨의 정확도가 ImageNet과 CIFAR-10에서 모델 순위에 미치는 영향을 분석한다.
테스트 세트의 노이즈 유병률을 점진적으로 변화시켜 벤치마크 불안정성과 모델 선택 민감성을 연구한다.

실험 결과

연구 질문

RQ1다양한 모달리티에서 널리 사용되는 ML 벤치마크의 테스트 세트에 라벨 오류가 얼마나 만연해 있는가?
RQ2테스트 세트 라벨 오류가 벤치마크의 안정성과 더 높은 용량의 모델이 지니는 우월성의 인식에 어떤 영향을 미치는가?
RQ3수정된 테스트 라벨이 모델 순위를 바꿀 수 있는가, 그리고 실제로 더 작은 모델이 더 큰 모델보다 우수할 수 있는 조건은 무엇인가?
RQ4라벨 수정을 재현하고 수정된 라벨 하에서의 성능을 평가하기 위한 공개 자원을 제공할 수 있는가?

주요 결과

10개 데이터셋에서 평균 테스트 세트 라벨 오류율이 최소 3.3%이다.
ImageNet 검증 세트에 6%의 잠정 라벨 오류가 있으며; QuickDraw에는 10%가 넘는 오류가 있다(CL로 분류된 결과에서 해석).
MTurk를 통한 인간 검증은 알고리즘이 표시한 후보 중 약 51%가 실제로는 잘못 라벨링된 것으로 나타났다.
수정된 라벨을 사용할 때 벤치마크 순위는 대체로 동일하게 남지만, 더 높은 용량의 모델은 노이즈에 비례해 더 크게 영향을 받아 불안정성이 증가한다.
ImageNet에서 원래 잘못 라벨링된 예가 약 6% 증가하면 ResNet-18이 ResNet-50보다 나을 수 있다; CIFAR-10에서는 잘못 라벨링된 비율이 약 5% 증가하면 VGG-11이 VGG-19를 능가할 수 있다.
수정 가능한 부분에서의 정확도(A*)은 노이즈가 많은 테스트 데이터에서 원래 정확도(Ã)로 관찰된 여러 명백한 이익을 역전시킬 수 있으며, 실용적 배포에 시사점을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.