Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptive Self-training for Few-shot Neural Sequence Labeling

Yaqing Wang, Subhabrata Mukherjee|arXiv (Cornell University)|2020. 10. 07.
Topic Modeling참고 문헌 46인용 수 35
한 줄 요약

본 논문은 적응형 자기학습과 토큰 수준 메타학습을 결합하여 의사 라벨링 데이터를 재가중하는 프레임워크인 MetaST를 제시한다. 이를 통해 아주 적은 수의 라벨링 예제와 풍부한 비라벨링 데이터로 신경망 시퀀스 라벨링을 가능하게 한다.

ABSTRACT

Sequence labeling is an important technique employed for many Natural Language Processing (NLP) tasks, such as Named Entity Recognition (NER), slot tagging for dialog systems and semantic parsing. Large-scale pre-trained language models obtain very good performance on these tasks when fine-tuned on large amounts of task-specific labeled data. However, such large-scale labeled datasets are difficult to obtain for several tasks and domains due to the high cost of human annotation as well as privacy and data access constraints for sensitive user applications. This is exacerbated for sequence labeling tasks requiring such annotations at token-level. In this work, we develop techniques to address the label scarcity challenge for neural sequence labeling models. Specifically, we develop self-training and meta-learning techniques for training neural sequence taggers with few labels. While self-training serves as an effective mechanism to learn from large amounts of unlabeled data -- meta-learning helps in adaptive sample re-weighting to mitigate error propagation from noisy pseudo-labels. Extensive experiments on six benchmark datasets including two for massive multilingual NER and four slot tagging datasets for task-oriented dialog systems demonstrate the effectiveness of our method. With only 10 labeled examples for each class for each task, our method obtains 10% improvement over state-of-the-art systems demonstrating its effectiveness for the low-resource setting.

연구 동기 및 목표

  • 신경 시퀀스 라벨링(NER 및 슬롯 태깅)에서 라벨 부족 문제를 비라벨링 데이터 활용으로 완화합니다.
  • 손실 감소를 불확실성의 프록시로 사용하여 정보성 라벨 검증 데이터를 적응적으로 선택하는 엔드-투-엔드 프레임워크를 개발합니다.
  • 노이즈가 있는 의사라벨링으로부터의 오류 전파를 메타학습 기반 토큰 수준 재가중으로 완화합니다.
  • 적은 샘플 설정에서 다국어 NER 및 태스크 지향 대화 데이터셋에 대해 일반화 성능을 입증합니다.

제안 방법

  • 작은 라벨링 데이터에 대해 미리 학습된 언어 모델(교사)을 미세조정하여 비라벨 데이터에 대한 의사라벨을 생성합니다.
  • 손실 감소를 불확실성의 프록시로 사용하여 즉시 보류 검증 세트를 구성하는 적응적 라벨링 데이터 획득을 수행합니다.
  • 적응형 검증 세트에서 학생의 손실에 기반하여 의사라벨 토큰을 재가중하기 위한 메타학습을 적용합니다.
  • 다중 라벨링 배치에서 강건한 가중치를 얻기 위해 그래디언트 기반 섭 perturbations를 통한 토큰 수준 재가중을 수행합니다.
  • 학생이 가중된 의사라벨에서 학습하고 교사가 학생의 파라미터로 반복적으로 업데이트되는 엔드-투-엔드 학습 절차를 수행합니다.
  • 메타ST를 여섯 개 데이터셋에서 동일한 인코더를 사용한 baselines와 비교합니다.

실험 결과

연구 질문

  • RQ1다양한 데이터셋과 언어에서 토큰 수준 메타학습을 통한 적응형 자기학습이 소수-shot 시퀀스 라벨링 성능을 향상시키나요?
  • RQ2적응형 검증 세트 구성과 토큰 수준 재가중이 시퀀스 태깅의 의사라벨 노이즈를 효과적으로 완화하나요?
  • RQ3적은 라벨 데이터 및 비라벨 데이터의 규모 변화에 대해 MetaST가 강력한 기준선 대비 어떻게 성능이 달라지나요?
  • RQ4자식-교사 간 업데이트를 반복하는 것이 자기학습 과정에서 태스크 집중을 유지하는 데 도움이 되나요?
  • RQ5적응적 데이터 획득 및 토큰 수준 재가중과 같은 구성요소가 전체 성능 향상에 실질적으로 기여하나요?

주요 결과

  • MetaST는 동일한 인코더를 사용한 baselines 대비 10개의 슬롯 라벨링 예제에서 여섯 개 데이터셋에서 모든 baselines를 상회하며 평균 8.82~18.07 포인트의 성능 향상을 달성합니다.
  • 일부 데이터셋(SNIPS 및 Email)에서 소수-shot 설정 하에 완전 감독 BERT에 대한 격차를 줄이며 성능을 향상시킵니다.
  • 메타학습을 통한 토큰 수준 재가중이 성능을 크게 높이는 반면, 소프트 의사라벨은 하드 라벨에 비해 성능이 낮습니다.
  • 적응형 라벨링 데이터 획득은 특히 많은 슬롯과 높은 다양성을 가지는 작업에서 성능을 향상시킵니다(SNIPS 등).
  • 도메인 내 사전 학습의 연속적 활용은 일부 작업에서 도움이 되지만, MetaST는 도메인 내외 모든 데이터셋에서 일관된 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.