[논문 리뷰] COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining
COCO-LM은 손상된 텍스트 토큰을 함께 수정하고 손상된/자른 시퀀스를 대조하는 방식으로 언어 모델을 사전 학습시키며, 개선된 효율성으로 GLUE/SQuAD에서 최첨단 성과를 달성합니다.
We present a self-supervised learning framework, COCO-LM, that pretrains Language Models by COrrecting and COntrasting corrupted text sequences. Following ELECTRA-style pretraining, COCO-LM employs an auxiliary language model to corrupt text sequences, upon which it constructs two new tasks for pretraining the main model. The first token-level task, Corrective Language Modeling, is to detect and correct tokens replaced by the auxiliary model, in order to better capture token-level semantics. The second sequence-level task, Sequence Contrastive Learning, is to align text sequences originated from the same source input while ensuring uniformity in the representation space. Experiments on GLUE and SQuAD demonstrate that COCO-LM not only outperforms recent state-of-the-art pretrained models in accuracy, but also improves pretraining efficiency. It achieves the MNLI accuracy of ELECTRA with 50% of its pretraining GPU hours. With the same pretraining steps of standard base/large-sized models, COCO-LM outperforms the previous best models by 1+ GLUE average points.
연구 동기 및 목표
- 표준 MLM/ELECTRA 프레임워크를 넘어 더 효율적이고 효과적인 사전 학습을 촉진한다.
- 토큰 수준 의미론과 시퀀스 표현을 다루기 위한 두 가지 새로운 사전 학습 태스크를 도입한다: Corrective Language Modeling (CLM)과 Sequence Contrastive Learning (SCL).
- COCO-LM이 사전 학습 계산량을 줄이면서 GLUE와 SQuAD에서 더 높은 정확도를 달성함을 보여준다.
- 이 방법이 표현 공간에서 더 나은 토큰 표현과 정렬/균일화를 가져다줌을 보여준다.
제안 방법
- 보조 생성기-유사 모델을 사용하여 입력 시퀀스를 ELECTRA와 유사하게 손상시킨다.
- 주요 Transformer를 학습시켜, CLM으로 대체된 토큰을 탐지하고 수정하고, SCL로 손상된 시퀀스를 잘려진 원본과 정렬한다.
- CLM은 다중 태스크 설정에서 복사 메커니즘과 언어 모델링 손실을 결합한다.
- SCL은 (손상된, 잘려진) 양성 샘플과 임의 음성 샘플을 사용하는 시퀀스 표현에 대해 대조 손실을 적용한다.
- 전체 목적 함수는 L_COCO-LM = L_Aux.MLM + L_Main.CLM + L_Main.SCL이다.
- 보조 모델이 더 작고도 충분히 기능할 수 있도록 구성하고, 메인 모델은 표준 BERT/ELECTRA 아키텍처를 따른다.
실험 결과
연구 질문
- RQ1손상된 토큰을 수정하고 손상된 시퀀스와 잘려진 시퀀스를 대조하는 것이 사전 학습 효율성과 하류 작업 성능을 개선할 수 있는가?
- RQ2CLM과 SCL이 토큰 수준 의미론과 시퀀스 수준 표현 공간에 보완적인 이점을 제공하는가?
- RQ3같은 학습 예산에서 COCO-LM이 GLUE와 SQuAD에서 ELECTRA와 RoBERTa와 어떻게 비교되는가?
- RQ4데이터 증강 강도( crop 비율 )와 아키텍처 선택이 성능 및 일반화에 미치는 효과는 무엇인가?
주요 결과
- COCO-LM은 base, base++, large++ 설정 전반에서 GLUE 평균 및 SQuAD에서 최근 최첨단 사전 학습 모델들을 능가한다.
- 동일한 사전 학습 설정에서 COCO-LM은 RoBERTa와 ELECTRA의 MNLI 정확도에 각각 60%와 50%의 GPU 시간으로 일치한다.
- 동일한 스텝 수에서 COCO-LM/Base++가 이전 최고 모델보다 1점+의 GLUE 평균 포인트를 초과한다.
- 367M 파라미터의 COCO-LM/Large++는 Megatron 3.9B에 비견되는 MNLI 정확도에 도달한다.
- SCL은 표현의 정렬 및 균일성을 개선하고 열화(degeneration)를 감소시키며 소수샷 일반화를 향상시키고, CLM은 손상된 시퀀스에서 강력한 토큰-수준 모델링을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.