QUICK REVIEW

[논문 리뷰] Eliciting and Learning with Soft Labels from Every Annotator

Katherine M. Collins, Umang Bhatt|arXiv (Cornell University)|2022. 07. 02.

Mobile Crowdsensing and Crowdsourcing인용 수 3

한 줄 요약

이 논문은 다수의 응답자로부터의 하드 레이블 집계 대신 개별 응답자로부터 소프트 레이블—모든 클래스에 대한 확률적 판단—을 효율적으로 확보하는 방법을 제안한다. CIFAR-10에서 248명의 응답자로부터 6,200개의 소프트 레이블을 확보함으로써 저자들은 CIFAR-10S 데이터셋을 공개하고, 이 레이블을 기반으로 훈련된 모델이 이전 방법에 비해 8.5배 적은 응답자 수로도 유사한 성능을 달성하며, 보다 풍부한 불확실성 신호를 포착해 校정성과 내성성을 향상시킴을 보여준다.

ABSTRACT

The labels used to train machine learning (ML) models are of paramount importance. Typically for ML classification tasks, datasets contain hard labels, yet learning using soft labels has been shown to yield benefits for model generalization, robustness, and calibration. Earlier work found success in forming soft labels from multiple annotators' hard labels; however, this approach may not converge to the best labels and necessitates many annotators, which can be expensive and inefficient. We focus on efficiently eliciting soft labels from individual annotators. We collect and release a dataset of soft labels (which we call CIFAR-10S) over the CIFAR-10 test set via a crowdsourcing study (N=248). We demonstrate that learning with our labels achieves comparable model performance to prior approaches while requiring far fewer annotators -- albeit with significant temporal costs per elicitation. Our elicitation methodology therefore shows nuanced promise in enabling practitioners to enjoy the benefits of improved model performance and reliability with fewer annotators, and serves as a guide for future dataset curators on the benefits of leveraging richer information, such as categorical uncertainty, from individual annotators.

연구 동기 및 목표

다수의 응답자로부터의 하드 레이블 집계에 의존하는 대신, 각 응답자로부터 모든 클래스에 대한 확률적 판단을 포함하는 풍부한 소프트 레이블을 확보하는 방법을 개발하는 것.
소프트 레이블 확보의 비용과 비효율성을 줄이기 위해, 레이블 품질을 유지하면서도 필요한 응답자 수를 최소화하는 것.
1,000개의 CIFAR-10 테스트 이미지에 대해 6,200개의 소프트 레이블을 포함한 새로운 데이터셋인 CIFAR-10S를 공개하여 모델의 일반화 및 校정성 향상에 기여하는 것.
다른 도메인과 데이터셋에 적용 가능한 공개 가능한, 유연한 인터페이스를 제공하는 것.

제안 방법

각 개별 응답자에게 이미지마다 10개의 클래스 전부에 대해 확률을 할당하도록 요청하여, 그들의 불확실성을 직접 캡처하는 소프트 레이블을 확보한다.
응답자가 이미지를 보고 모든 클래스에 걸쳐 확률을 분배할 수 있도록 설계된 커뮤니티 기반 인터페이스를 사용하며, 유효한 확률 분포를 보장하기 위한 제약 조건을 적용한다.
개별 응답자로부터 확보한 소프트 레이블을 단순 평균화하여 최종 데이터셋인 CIFAR-10S를 구성한다.
다른 데이터셋과 도메인에 적용 가능한 재사용 및 변형이 가능한 인터페이스 코드를 공개한다.
처리 가능성을 확보하고 응답자의 인지 부담을 줄이기 위해 제한된 레이블 공간(10개 클래스)을 중심으로 한다.
CIFAR-10S를 기반으로 모델을 훈련하고, 이전의 하드 레이블 집계를 사용한 기준인 CIFAR-10H와 성능을 비교하여 방법의 타당성을 검증한다.

실험 결과

연구 질문

RQ1다수의 응답자로부터의 하드 레이블 집계에 비해, 개별 응답자로부터 직접 확보한 소프트 레이블이 동일한 모델 성능을 달성할 수 있는가?
RQ2기존의 하드 레이블 집계 방식에 비해, 각 응답자로부터의 확률적 판단을 직접 확보함으로써 모델의 校정성과 내성성이 향상되는가?
RQ3소프트 레이블을 개별 응답자로부터 확보함으로써, 모델 성능을 저하시키지 않고도 필요한 응답자 수를 크게 줄일 수 있는가?
RQ4개별 응답자로부터 소프트 레이블을 확보하는 데 소요되는 시간적 비용은 기존의 하드 레이블링 방식과 비교해 어떻게 되며, 이를 완화할 수 있는가?
RQ5소프트 레이블이 집계된 하드 레이블에 비해, 개별 응답자로부터의 레이블이 인간의 불확실성을 얼마나 더 잘 반영하는가?

주요 결과

CIFAR-10S를 기반으로 훈련된 모델은 하드 레이블 집계로 구성된 기준인 CIFAR-10H를 기반으로 훈련된 모델와 유사한 정확도, 내성성, 校정성 성능을 달성한다.
제안된 방법은 이전의 다수의 응답자당 이미지 1개를 기반으로 한 접근 방식에 비해 약 8.5배 적은 응답자 수로도 유사한 모델 성능을 달성할 수 있다.
CIFAR-10S 데이터셋은 CIFAR-10 테스트 세트의 1,000개 이미지에 대해 6,200개의 소프트 레이블을 포함하며, 248명의 응답자로부터 확보되었다.
응답자 간 일관성은 중간 정도로 나타났다: 약 7%의 응답자가 반복된 경우에 가장 확률이 높은 레이블을 변경했으며, 레이블을 변경하지 않은 자들 평균 확률 이동은 6%였다.
저자들은 그들의 레이블 확보 인터페이스 코드를 https://github.com/cambridge-mlg/cifar-10s/ 에 공개하여 다른 데이터셋에 대한 재사용 및 확장 가능성을 제공한다.
연구는 전체 확률 분포를 통해 개별 응답자의 불확실성을 캡처함으로써, 모드 집계만을 고려하는 것보다 더 풍부한 신호를 제공할 수 있음을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.