QUICK REVIEW

[논문 리뷰] Learning From Noisy Singly-labeled Data

Ashish Khetan, Zachary C. Lipton|arXiv (Cornell University)|2017. 12. 13.

Mobile Crowdsensing and Crowdsourcing참고 문헌 20인용 수 86

한 줄 요약

본 논문은 Model Bootstrapped EM(MBEM)을 소개한다. 이는 노이즈가 있는 단일 라벨링 crowd 데이터에서 워커의 품질과 라벨링 함수를 공동으로 추정하여 학습하는 교대 최적화 알고리즘으로, 이론적 보장과 ImageNet, CIFAR-10, MS-COCO에서의 실증 검증을 제공한다.

ABSTRACT

Supervised learning depends on annotated examples, which are taken to be the \emph{ground truth}. But these labels often come from noisy crowdsourcing platforms, like Amazon Mechanical Turk. Practitioners typically collect multiple labels per example and aggregate the results to mitigate noise (the classic crowdsourcing problem). Given a fixed annotation budget and unlimited unlabeled data, redundant annotation comes at the expense of fewer labeled examples. This raises two fundamental questions: (1) How can we best learn from noisy workers? (2) How should we allocate our labeling budget to maximize the performance of a classifier? We propose a new algorithm for jointly modeling labels and worker quality from noisy crowd-sourced data. The alternating minimization proceeds in rounds, estimating worker quality from disagreement with the current model and then updating the model by optimizing a loss function that accounts for the current estimate of worker quality. Unlike previous approaches, even with only one annotation per example, our algorithm can estimate worker quality. We establish a generalization error bound for models learned with our algorithm and establish theoretically that it's better to label many examples once (vs less multiply) when worker quality is above a threshold. Experiments conducted on both ImageNet (with simulated noisy workers) and MS-COCO (using the real crowdsourced labels) confirm our algorithm's benefits.

연구 동기 및 목표

고정된 주석 예산 하에서 노이즈가 있는 크라우드소싱 라벨로부터 학습을 촉진한다.
예시당 하나의 라벨만 있어도 워커 품질을 추정하는 알고리즘을 개발한다.
분류기를 학습하기 위해 워커 품질 추정을 가중 손실에 통합한다.
MBEM 접근법에 대한 이론적 일반화 보장을 제공한다.
ImageNet, CIFAR-10, MS-COCO에서 MBEM을 기준선과 비교하여 실증적으로 검증한다.

제안 방법

Ground truth 라벨링을 워커 혼동 행렬 pi로 표현하는 Dawid-Skene 프레임워크를 모델링한다.
MBEM 절차를 통해 pi와 라벨링 함수 f*를 순환적으로 추정한다.
포스터리안 P[Y|Z^(r); w^(r)]를 사용하여 f를 학습하는 가중 손실 ell_pi,q를 정의하고 라벨 노이즈를 완화한다.
수정된 손실로 경험적 위험을 최소화하여 사후 기반 가중치를 사용해 f를 업데이트한다(식(4)).
모델 예측 t_i와 관찰된 라벨 Z_ij로부터 워커 혼동 행렬 pi^(a)와 사전 q를 추정한다(식(7)).
추정된 과다 위험 및 혼동 행렬 추정에 대한 이론적 보장을 갖춘 두 라운드(T=2) MBEM을 제공한다(정리 4.1).

실험 결과

연구 질문

RQ1노이즈가 있는 크라우드 라벨에서 예시 하나당 레이블이 하나뿐인 경우에도 정확한 분류기를 어떻게 학습할 수 있는가(저중복성)?
RQ2워커 품질과 지상 진실 라벨링 함수를 공동으로 추정하여 downstream 분류기 성능을 개선할 수 있는가?
RQ3노이즈 라벨과 함께 Dawid-Skene 하에서 MBEM의 이론적 일반화 보장은 무엇인가?
RQ4워커 품질에 따라 예시를 많이 라벨링하는 것이 최적인가 아니면 소수의 라벨링으로도 가능한가(예산 제약 하에서)?
RQ5대규모 데이터셋(ImageNet, CIFAR-10, MS-COCO)에서 MBEM이 MV나 EM 같은 기준선보다 나은가?

주요 결과

MBEM은 CIFAR-10, ImageNet, MS-COCO에서 저중복 설정에서 MV, EM, 가중 기준선에 비해 일반화 오차를 대폭 개선한다.
모델 간 불일치에서 워커 품질 추정을 부트스트래핑하여 한 라벨만 있는 경우 거의 오라클 수준의 성능을 달성한다.
두 번의 MBEM 라운드(T=2)로도 합성 및 실제 크라우드 라벨 실험에서 기준선 대비 상당한 이득을 얻는다.
이론적으로는 VC 차원에 비례하는 초과 위험 경계가 제시되며, 워커 품질이 임계값(Rho가 1/2 미만일 때)일 때 라벨 한 번이 최적일 수 있음을 시사한다.
CIFAR-10 및 ImageNet에 대한 실험에서 고정 예산 하 MBEM이 MV와 EM을 지속적으로 능가하고 많은 설정에서 오라클 성능에 근접한다.
MS-COCO에서 MBEM은 노이즈 주석으로 학습할 때 MV와 EM보다 더 높은 F1 점수를 보이며 현실적인 다중 레이블 설정에서 더 나은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.