QUICK REVIEW

[논문 리뷰] Uncertainty-aware Self-training for Text Classification with Few Labels

Subhabrata Mukherjee, Ahmed Hassan Awadallah|arXiv (Cornell University)|2020. 06. 27.

Topic Modeling참고 문헌 40인용 수 41

한 줄 요약

이 논문은 자Bayesian 불확실성 기반의 MC 드롭아웃, BALD 기반 표본 선택, 그리고 자신감 학습을 통해 추가 자원 없이도 소수의 레이블로 텍스트 분류를 위한 불확실성 인식(Self-training) 프레임워크(UST)를 제안한다.

ABSTRACT

Recent success of large-scale pre-trained language models crucially hinge on fine-tuning them on large amounts of labeled data for the downstream task, that are typically expensive to acquire. In this work, we study self-training as one of the earliest semi-supervised learning approaches to reduce the annotation bottleneck by making use of large-scale unlabeled data for the target task. Standard self-training mechanism randomly samples instances from the unlabeled pool to pseudo-label and augment labeled data. In this work, we propose an approach to improve self-training by incorporating uncertainty estimates of the underlying neural network leveraging recent advances in Bayesian deep learning. Specifically, we propose (i) acquisition functions to select instances from the unlabeled pool leveraging Monte Carlo (MC) Dropout, and (ii) learning mechanism leveraging model confidence for self-training. As an application, we focus on text classification on five benchmark datasets. We show our methods leveraging only 20-30 labeled samples per class for each task for training and for validation can perform within 3% of fully supervised pre-trained language models fine-tuned on thousands of labeled instances with an aggregate accuracy of 91% and improving by upto 12% over baselines.

연구 동기 및 목표

라벨링이 적은 텍스트 분류에서 비표본 데이터를 활용하여 주석 병목 현상을 줄이는 것을 동기로 삼는다.
베이지안 불확실성을 사용하여 가짜 라벨링을 안내하는 불확실성 인식 자기 학습 프레임워크를 개발한다.
노이즈가 있는 가짜 라벨에서 Drift를 최소화하기 위해 불확실성 기반의 샘플 선택 전략을 조사한다.
라벨이 아주 적은 다섯 개의 벤치마크 텍스트 분류 데이터셋에서 효과를 입증한다.

제안 방법

교사 역할을 하는 작은 라벨 세트에서 사전 학습된 언어 모델(BERT)을 미세조정한다.
무표본 데이터에 대해 여러 차례의 확률적 순전파를 수행하여 불확실성 추정치를 얻기 위해 MC 드롭아웃을 사용한다.
교사 혼동으로 unlabeled 인스턴스를 순위를 매기기 위한 BALD 기반 취득 점수를 계산한다.
선정된 미표본 인스턴스로부터의 하드 가짜 라벨로 학습을 확장하고 학생 모델을 엔드투엔드로 재학습한다.
무표본 데이터 손실에 예측 분산을 포함시켜 자신감 학습을 구현하고 저분산 샘플을 강조한다.
쉽게 샘플링 vs 하드 샘플링, 클래스 의존적 선택, 그리고 구성 요소별 ablations를 통해 비교한다.

실험 결과

연구 질문

RQ1매우 제한된 라벨에서 불확실성 인식 샘플링이 텍스트 분류의 자기 학습을 개선할 수 있는가?
RQ2BALD 기반 샘플 선택이 이 설정에서 균등 샘플링이나 백트랜스레이션 기반 증강보다 성능을 향상시키는가?
RQ3예측 분산(자신감 학습)을 도입하는 것이 가짜 라벨의 질과 최종 정확도에 어떤 영향을 미치는가?
RQ4클래스 균형 샘플링과 구성 요소의 ablation이 여러 실행에서 성능 안정성에 어떻게 기여하는가?

주요 결과

데이터세트	모델	K 라벨	정확도
SST	UST (ours)	30	88.19
IMDB	UST (ours)	30	89.21
Elec	UST (ours)	30	91.27
AG News	UST (ours)	30	87.74
Dbpedia	UST (ours)	30	98.57

UST는 동일한 인코더(BERT-Base) 및 클래스당 30개의 라벨 샘플을 사용한 표준 자기 학습 및 백트랜스레이션 기반 UDA를 능가한다.
다섯 데이터 세트에 걸쳐 UST가 대조 비교 대비 더 높은 누적 정확도와 분산 감소를 달성한다(논문에 보고된 기본 모델 및 대조군의 평균 개선).
탐색이 포함된 클래스 의존적 샘플링 및 자신감 학습은 ablation에서 견고성과 더 높은 정확도에 기여한다.
BALD를 이용한 불확실성 기반 샘플링과 쉬운 전략 대 하드 전략은 이 자기 학습 설정에서 쉬운 샘플링이 더 큰 개선을 가져오는 경향을 보인다.
수천 개의 라벨 인스턴스에 근접하는 성능을 달성하면서도 각 클래스당 20-30개의 라벨 샘플과 큰 미표본 풀만으로도 가능하다.
UST는 작업 전반에 걸쳐 기본 모델 대비 최대 12% 절대 forbed를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.