QUICK REVIEW

[논문 리뷰] Inferring ground truth from multi-annotator ordinal data: a probabilistic approach

Balaji Lakshminarayanan, Yee Whye Teh|arXiv (Cornell University)|2013. 04. 30.

Mobile Crowdsensing and Crowdsourcing참고 문헌 16인용 수 23

한 줄 요약

이 논문은 변분 베이지안 추론 알고리즘을 사용하여 평가자 전문성, 인스턴스 난이도, 스팸 평가자를 모델링함으로써 다수의 노이즈가 있는 순서형 레이블에서 참값 레이블을 동시에 추론하는 확률적 순서형 커뮤니티 모델을 제안한다. 제안된 Ordinal-discrete-mixture 모델은 아마존 메카니컬 터크에서 확보한 실세계 쿼리-URL 관련성 데이터셋에서 특히 정확도와 스팸에 대한 강건성 측면에서 최신 기법들을 능가한다.

ABSTRACT

A popular approach for large scale data annotation tasks is crowdsourcing, wherein each data point is labeled by multiple noisy annotators. We consider the problem of inferring ground truth from noisy ordinal labels obtained from multiple annotators of varying and unknown expertise levels. Annotation models for ordinal data have been proposed mostly as extensions of their binary/categorical counterparts and have received little attention in the crowdsourcing literature. We propose a new model for crowdsourced ordinal data that accounts for instance difficulty as well as annotator expertise, and derive a variational Bayesian inference algorithm for parameter estimation. We analyze the ordinal extensions of several state-of-the-art annotator models for binary/categorical labels and evaluate the performance of all the models on two real world datasets containing ordinal query-URL relevance scores, collected through Amazon's Mechanical Turk. Our results indicate that the proposed model performs better or as well as existing state-of-the-art methods and is more resistant to `spammy' annotators (i.e., annotators who assign labels randomly without actually looking at the instance) than popular baselines such as mean, median, and majority vote which do not account for annotator expertise.

연구 동기 및 목표

커뮤니티 기반 데이터에서 다수의 노이즈가 있는 순서형 레이블로부터 정확한 참값 레이블을 추론하는 문제에 대응하기 위해.
순서형 레이블링 작업에서 평가자 전문성 수준의 다양성과 인스턴스 난이도를 모델링하기 위해.
무시무시하게 레이블을 무작위로 부여하는 스팸 평가자를 명시적으로 탐지하고 가중치를 낮추기 위해.
기존의 이진/범주형 레이블링 모델의 순서형 확장판이 실세계 데이터셋에서 성능을 평가하기 위해.
불확실성 하에 참값과 모델 파라미터를 동시에 추정할 수 있는 확장 가능한 추론 알고리즘을 개발하기 위해.

제안 방법

순서형 레이블을 적절한 순서형 가능도와 균일한(스팸) 성분의 혼합으로 모델링하는 새로운 확률적 모델인 Ordinal-discrete-mixture 모델을 제안한다.
각 평가자의 레이블이 구조적 순서형 반응과 균일한 랜덤 반응의 혼합으로 모델링되는 잠재 변수 프레임워크를 사용하여 스팸 탐지 기능을 가능하게 한다.
생성 모델에 인스턴스별 난이도와 평가자별 전문성을 잠재 변수로 통합한다.
잠재 변수와 모델 파라미터의 사후분포를 근사하기 위해 변분 베이지안 추론 알고리즘을 사용하여 확장 가능한 학습을 가능하게 한다.
누적 링크 함수를 통해 순서 구조를 모델링하여, 이진 또는 범주형 확장과 달리 레이블 값의 자연스러운 순서를 유지한다.
평가자별 전문성과 인스턴스별 난이도를 모두 가능도 함수에 통합하여 레이블 복원 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1확률적 모델이 순서형 레이블링 작업에서 참값 레이블을 동시에 추론하고 다양한 평가자 전문성을 고려할 수 있는가?
RQ2인스턴스 난이도를 모델링할 경우 커뮤니티 기반 순서형 데이터에서 참값 추론 정확도가 얼마나 향상되는가?
RQ3제안된 모델이 무작위 레이블을 부여하는 스팸 평가자를 탐지하고 가중치를 낮추는 데 얼마나 효과적인가?
RQ4레이블의 순서 구조가 이들을 범주형 또는 실수형으로 취급하는 것과 비교해 모델 성능에 어떤 영향을 미치는가?
RQ5실세계 데이터셋에서 MSE, 상관 계수, NDCG 측정치를 기준으로 제안된 모델이 기존 최신 기법들과 비교해 어떻게 성능을 내는가?

주요 결과

제안된 Ordinal-discrete-mixture 모델은 Yandex 및 TREC 데이터셋에서 평균 제곱 오차(MSE), 상관계수, 정규화된 할당 누적 수익(NDCG) 측면에서 기존 최신 기법들을 능가하거나 동등하게 성능을 내었다.
기존의 평균, 중앙값, 다수결과와 같은 기준 기법들과는 달리, 스팸 평가자가 증가함에 따라 성능이 급격히 악화되는 것을 보였지만, 본 모델은 스팸에 대해 훨씬 더 강건한 성능을 보였다.
스팸 혼합 성분을 포함하는 것이 강건성에 매우 중요하며, 이를 생략한 변형은 고수준 스팸 조건에서 성능이 떨어졌다.
누적 링크 함수를 사용한 순서형 가능도 모델이 실수형 가능도 모델보다 성능이 뛰어나, 레이블 순서를 유지하는 것이 중요하다는 것을 입증했다.
모델은 스팸 평가자를 효과적으로 식별하고 영향력을 낮춰 참값 추정에 미치는 영향을 줄였다.
각 쿼리-URL 쌍에 최대 9개의 위조 스팸 레이블이 포함된 상황에서도 본 모델은 모든 기준 기법과 기존 전문성 인식 모델들을 능가하는 강력한 성능을 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.