QUICK REVIEW

[논문 리뷰] Well-Read Students Learn Better: On the Importance of Pre-training Compact Models

Iulia Turc, Ming‐Wei Chang|arXiv (Cornell University)|2019. 08. 23.

Topic Modeling참고 문헌 36인용 수 428

한 줄 요약

이 논문은 컴팩트 Transformer 모델을 사전 학습한 뒤, 큰 교사를 통한 증류와 선택적 미세 조정을 수행하면, 다양한 모델 크기와 데이터 조건에서 더 정교한 압축 방법들과 비교해 경쟁력 있거나 우수한 성능을 얻을 수 있음을 보여준다.

ABSTRACT

Recent developments in natural language representations have been accompanied by large and expensive models that leverage vast amounts of general-domain text through self-supervised pre-training. Due to the cost of applying such models to down-stream tasks, several model compression techniques on pre-trained language representations have been proposed (Sun et al., 2019; Sanh, 2019). However, surprisingly, the simple baseline of just pre-training and fine-tuning compact models has been overlooked. In this paper, we first show that pre-training remains important in the context of smaller architectures, and fine-tuning pre-trained compact models can be competitive to more elaborate methods proposed in concurrent work. Starting with pre-trained compact models, we then explore transferring task knowledge from large fine-tuned models through standard knowledge distillation. The resulting simple, yet effective and general algorithm, Pre-trained Distillation, brings further improvements. Through extensive experiments, we more generally explore the interaction between pre-training and distillation under two variables that have been under-studied: model size and properties of unlabeled task data. One surprising observation is that they have a compound effect even when sequentially applied on the same data. To accelerate future research, we will make our 24 pre-trained miniature BERT models publicly available.

연구 동기 및 목표

메모리 및 지연(latency) 제약 하에서 컴팩트 모델의 사전 학습이 최종 태스크 성능에 이득이 있음을 입증한다.
사전 학습과 증류를 결합하고(선택적 미세 조정 포함) 기존의 압축 방법과 경쟁력 있거나 우수하다는 점을 보인다.
모델 크기와 비표지 데이터의 규모가 사전 학습 및 증류의 이득에 어떤 영향을 미치는지 분석한다.
동일 데이터에 순차적으로 적용했을 때 LM 사전 학습과 태스크 특화 증류 간의 상호 작용을 조사한다.
향후 연구를 가속화하기 위해 사전 학습된 소형 BERT 모델 모음을 제공합니다.

제안 방법

세 단계 학습 프로세스를 적용: 대규모 비표지 LM 코퍼스에서의 MLM 사전 학습, 비표지 전이 데이터에 대한 소프트 레이블을 사용한 고용량 교사로부터의 증류, 그리고 라벨이 있는 데이터에 대한 선택적 미세 조정.
Pre-trained Distillation (PD)를 기본 학습, 표준 증류, 그리고 pre-training plus fine-tuning (PF) 대비 비교.
24개의 컴팩트 모델 크기(4M에서 110M 파라미터) 변동 및 다양한 비표지 데이터 규모와 도메인 유사도에서의 성능 평가.
GLUE-스타일 태스크 및 여러 데이터 세트(MNLI, RTE, SST-2, Book Reviews)에서 평가하여 전달 데이터 크기와 도메인 이동에 대한 강인성을 연구.
사전 학습과 증류의 결합 효과를 분석하고 동시대의 모델 압축 연구와 비교한다.

실험 결과

연구 질문

RQ1컴팩트 모델의 Transformer 계층을 사전 학습시키는 것이 표준 증류나 PF 기준선에 비해 최종 태스크 성능을 향상시키는가?
RQ2모델 크기와 비표지 데이터의 크기/도메인이 사전 학습 및 증류의 이득에 어떤 영향을 미치는가?
RQ3동일 데이터에 대해 LM 사전 학습과 증류를 순차적으로 적용할 때 결합 이점이 있는가?
RQ4전이 세트 크기와 라벨링 데이터와 비표지 데이터 간의 도메인 이동에 대해 Pre-trained Distillation의 강인성은 어느 정도인가?

주요 결과

Pre-training plus distillation (PD)은 여러 태스크와 모델 크기에 걸쳐 일관되게 기준선보다 우수하다.
사전 학습된 컴팩트 모델에서 깊이가 너비보다 더 가치가 있다; 사전 학습은 깊이의 활용을 더 잘 가능하게 한다.
PD는 교사 성능에 맞추거나 이를 초과할 수 있으며, 일반 증류보다 훨씬 작은 모델과 더 적은 전달 데이터로도 가능하다.
PF도 전이 세트가 라벨링 세트보다 크지 않을 때는 경쟁력이 있지만, PD가 전반적으로 우수하고 특히 전이 데이터 변동에 강건하다.
PD는 라벨링 데이터와 전달 데이터 간의 도메인 이동에 대해 표준 증류보다 더 강건하며, 사전 학습과 증류의 연쇄가 보너스 이득을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.