Skip to main content
QUICK REVIEW

[논문 리뷰] Self-training Improves Pre-training for Natural Language Understanding

Jingfei Du, Édouard Grave|arXiv (Cornell University)|2020. 10. 05.
Topic Modeling참고 문헌 43인용 수 46
한 줄 요약

논문은 SentAugment를 제안하며, 대규모 웹 은행에서 작업 관련 도메인 내 문장을 검색하여 RoBERTa 기반 NLU 모델을 향상시키는 데이터 증강 및 자체 학습 접근법을 제시합니다. 여러 작업에 대해 강력한 기준선 대비 이점을 보이고, 지식 증류 및 소샷 학습에서도 이점을 입증합니다.

ABSTRACT

Unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through semi-supervised learning. To obtain additional data for a specific task, we introduce SentAugment, a data augmentation method which computes task-specific query embeddings from labeled data to retrieve sentences from a bank of billions of unlabeled sentences crawled from the web. Unlike previous semi-supervised methods, our approach does not require in-domain unlabeled data and is therefore more generally applicable. Experiments show that self-training is complementary to strong RoBERTa baselines on a variety of tasks. Our augmentation approach leads to scalable and effective self-training with improvements of up to 2.6% on standard text classification benchmarks. Finally, we also show strong gains on knowledge-distillation and few-shot learning.

연구 동기 및 목표

  • 도메인 외부의 비라벨 데이터 활용을 통해 자연어 이해를 위한 반지도학습을 모티브로 삼는다.
  • SentAugment를 도입하여 작업 관련 도메인 내 문장을 웹 규모의 은행에서 검색한다.
  • SentAugment를 사용한 자체 학습이 강력한 사전 학습 기준선과 보완되어 다운스트림 태스크 성능을 향상시킴을 입증한다.
  • 오픈 도메인 데이터를 사용한 지식 증류 및 소샷 학습으로의 확장을 탐구한다.

제안 방법

  • 검색을 위한 대규모 외부 비라벨 웹 문장 은행(CC-100M/1B/5B)을 구축한다.
  • 다중 언어 마스크드 LM 목표와 triplet 손실을 사용하여 문장 임베딩 방향성을 가지는 SASE(SentAugment Sentence Encoder)를 학습한다.
  • 각 다운스트림 태스크에 대해 모든 평균(all-average), 라벨 평균(label-average), 문장별(per-sentence) 등 태스크 임베딩을 구성하여 문장 은행에서 유사한 문장을 쿼리한다.
  • 교사 모델의 신뢰도로 검색된 문장을 필터링하여 관리 가능한 도메인 내 후보를 얻는다.
  • 태스크에 맞게 미세 조정된 RoBERTa-Large 교사를 사용해 검색된 문장을 합성 라벨링한 후, 합성 데이터에 대해 KL-발산으로 학생 모델 RoBERTa-Large를 학습한다.
  • 필요시 더 작은 학생 모델로 지식 증류를 적용하고, 증강 데이터를 사용한 소샷 설정에서 평가한다.

실험 결과

연구 질문

  • RQ1오픈 도메인, 도메인 내 보강 데이터를 사용할 때 자연어 이해에서 자기 학습이 사전 학습에 보완적으로 작용할 수 있는가?
  • RQ2SentAugment가 도메인 내 비라벨 데이터 없이도 효과적인 도메인 적응을 가능하게 하며, 표준/소샷 및 증류 태스크에 어떤 영향을 미치는가?
  • RQ3SentAugment 기반 자체 학습의 이점을 주도하는 핵심 요인(검색 전략, 임베딩 품질, 라벨링 패러다임)은 무엇인가?
  • RQ4외부 문장 은행의 규모를 확장하는 것이 성능 및 계산 비용에 어떤 영향을 미치는가?

주요 결과

  • SentAugment를 사용한 자체 학습은 여섯 가지 벤치마크에서 강력한 기준선 대비 평균 1.2%의 정확도 향상을 RoBERTa-Large에 제공합니다.
  • 소샷 학습에서 SentAugment를 사용한 경우 평균 3.5%의 이득(72.0%에서 75.5%로 증가)입니다.
  • SentAugment를 이용한 지식 증류는 평균 정확도 85.4%까지 도달하여 교사에 근접하고 파라미터 수가 크게 줄어듭니다.
  • 작업별로 태스크 특화 라벨 평균 검색이 모든 평균 검색보다 대다수 태스크에서 우수합니다(평균 83.1%).
  • 문장 임베딩 기반의 para-임베딩(SASE)은 단어 평균 기준보다 우수하며, 평가된 태스크에서 SASE가 평균 83.1%를 달성합니다.
  • 은행 크기를 50M에서 1B 라인으로 늘리면 성능이 향상되며, 1B를 넘어 5B까지 수렴하는 경향이 있어 희귀 도메인에 유리한 이점이 예상됩니다.
  • 합성 라벨로서 연속 후부 확률(logits)을 사용하는 것이 이산 라벨보다 자체 학습 결과를 더 좋게 만듭니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.