QUICK REVIEW

[논문 리뷰] Learning From Noisy Labels By Regularized Estimation Of Annotator Confusion

Ryutaro Tanno, Ardavan Saeedi|arXiv (Cornell University)|2019. 02. 10.

Machine Learning and Data Classification참고 문헌 38인용 수 31

한 줄 요약

이 논문은 분류기 예측과 개별 평가자 혼동 행렬을 함께 추정함으로써 노이즈가 있는 레이블로부터 학습하는 단순하면서도 효과적인 방법을 제안한다. 정규화 항을 통해 최소 랭크이자 최대로 신뢰할 수 없는 혼동 행렬을 유도함으로써, 이미지 분류 작업에서 최신 기술(SOTA)을 초월한다. 특히 레이블이 한 개뿐인 경우에도 성능이 뛰어나며, 평가자 기술과 레이블 노이즈를 정확히 복원한다. 이는 대각선 우세도가 낮고 레이블 빈도가 적은 상황에서 특히 두드러진다.

ABSTRACT

The predictive performance of supervised learning algorithms depends on the quality of labels. In a typical label collection process, multiple annotators provide subjective noisy estimates of the "truth" under the influence of their varying skill-levels and biases. Blindly treating these noisy labels as the ground truth limits the accuracy of learning algorithms in the presence of strong disagreement. This problem is critical for applications in domains such as medical imaging where both the annotation cost and inter-observer variability are high. In this work, we present a method for simultaneously learning the individual annotator model and the underlying true label distribution, using only noisy observations. Each annotator is modeled by a confusion matrix that is jointly estimated along with the classifier predictions. We propose to add a regularization term to the loss function that encourages convergence to the true annotator confusion matrix. We provide a theoretical argument as to how the regularization is essential to our approach both for the case of single annotator and multiple annotators. Despite the simplicity of the idea, experiments on image classification tasks with both simulated and real labels show that our method either outperforms or performs on par with the state-of-the-art methods and is capable of estimating the skills of annotators even with a single label available per image.

연구 동기 및 목표

다양한 평가자 기술 수준과 편향으로 인해 레이블이 노이즈가 나는 상황에서 정확한 모델을 훈련하는 데 도전한다.
다수결 투표나 큰 레이블 중복을 기반으로 하지 않고도 진정한 레이블 분포와 개별 평가자 혼동 행렬을 함께 추정한다.
이론적으로 탄탄하면서도 실용적으로 단순한 방법을 개발하며, 표준 교차 엔트로피 손실에 정규화 항을 추가하기만 하면 된다.
의료 영상과 같은 고비용 분야에서 흔한 한 예제당 하나의 레이블이 존재하는 상황에서도 레이블 노이즈를 정확히 모델링할 수 있도록 한다.

제안 방법

훈련 중에 분류기와 함께 함께 추정되는 평가자 별 혼동 행렬을 사용해 각 평가자를 모델링한다.
손실 함수에 정규화 항을 도입하여 추정된 혼동 행렬의 트레이스를 최소화함으로써 최대한의 불신뢰성 유도를 통해 진정한 노이즈 패tern으로 수렴하도록 유도한다.
노이즈 있는 레이블에 분류기를 피팅하기 위해 교차 엔트로피 손실을 사용하면서도, 혼동 행렬을 정규화하여 노이즈에 대한 과적합을 방지한다.
기존 딥러닝 파이프라인에 쉽게 통합할 수 있도록 표준 교차 엔트로피 손실에 단일 정규화 항을 추가함으로써 구현한다.
이론적 분석을 통해 정규화가 평균 혼동 행렬이 대각선으로 우세할 경우 진정한 평가자 혼동 행렬을 회복하는 데 필수적임을 확인한다.
반복적인 EM 기반 최적화를 피함으로써 기존의 공동 추정 방법보다 더 빠르고 안정적인 훈련을 가능하게 한다.

실험 결과

연구 질문

RQ1반복적인 EM 최적화가 필요 없이 단순한 정규화 기반 방법이 진정한 레이블 분포와 개별 평가자 혼동 행렬을 함께 추정할 수 있는가?
RQ2한 예제당 하나의 레이블만 존재하는 경우, 이 방법이 평가자 기술과 레이블 노이즈를 얼마나 효과적으로 복원하는가?
RQ3혼동 행렬을 통해 개별 평가자를 모델링하는 것이 평가자 특화 노이즈를 무시하는 방법보다 분류 정확도를 향상시키는가?
RQ4특히 평균 혼동 행렬의 대각선 우세도와 관련하여, 정규화 항이 진정한 노이즈 패턴을 일관되게 회복하는 조건은 무엇인가?
RQ5모의 및 실제 노이즈 레이블링 시나리오에서 MBEM 및 일반화된 EM과 같은 최신 기술과 비교해 성능과 강건성 면에서 이 방법은 어떠한가?

주요 결과

모의 노이즈 레이블이 있는 MNIST와 CIFAR-10에서, 특히 레이블 재현 빈도가 낮은 상황에서 MBEM 및 일반화된 EM과 유사하거나 더 높은 분류 정확도를 달성한다.
이미지당 한 개의 레이블만 존재하는 경우, 이 방법은 높은 성능을 유지하지만, 베이스라인 방법들은 정확도가 급격히 떨어진다.
초음파 영상에서 확득한 실제 심장 뷰 분류 데이터셋에서, 이 방법은 분류 정확도와 혼동 행렬 추정 품질 면에서 MBEM을 모두 능가한다.
추정된 혼동 행렬은 전문가와 비전문가 평가자를 명확히 구분하며, A3C와 A5C 뷰 사이의 빈번한 혼동 패턴을 잘 반영한다.
학습된 혼동 행렬의 평균 대각선 값 계산을 통해 평가자 기술 수준을 정확히 복원하며, 이는 전문가의 직관과 일치한다.
이론적 분석을 통해 정규화가 평균 혼동 행렬이 대각선으로 우세할 경우 진정한 평가자 혼동 행렬을 일관되게 회복하는 데 필수적임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.