[논문 리뷰] UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training
UniLMv2는 의사 마스킹 된 언어 모델링을 사용하여 통합된 양방향 인코더와 시퀀스-투-시퀀스 디코더를 사전 학습하고, 여러 NLU 및 NLG 벤치마크에서 최첨단 성과를 달성합니다.
We propose to pre-train a unified language model for both autoencoding and partially autoregressive language modeling tasks using a novel training procedure, referred to as a pseudo-masked language model (PMLM). Given an input text with masked tokens, we rely on conventional masks to learn inter-relations between corrupted tokens and context via autoencoding, and pseudo masks to learn intra-relations between masked spans via partially autoregressive modeling. With well-designed position embeddings and self-attention masks, the context encodings are reused to avoid redundant computation. Moreover, conventional masks used for autoencoding provide global masking information, so that all the position embeddings are accessible in partially autoregressive language modeling. In addition, the two tasks pre-train a unified language model as a bidirectional encoder and a sequence-to-sequence decoder, respectively. Our experiments show that the unified language models pre-trained using PMLM achieve new state-of-the-art results on a wide range of natural language understanding and generation tasks across several widely used benchmarks.
연구 동기 및 목표
- 단일 모델에서 언어 이해와 생성을 모두 지원하도록 통합된 사전 학습의 필요성을 제시한다.
- 토큰과 구간 간의 상호관계 및 내부 관계를 학습하기 위해 의사 마스킹된 언어 모델링(PMLM)을 도입한다.
- 인코딩 결과를 재사용하여 중복 연산을 피하고 AE와 PAR의 효율적인 공동 학습을 가능하게 한다.
- 자동인코딩(AE)과 부분적으로 자기회귀적(PAR) 목표를 결합하면 다양한 작업에 상호 보완적 표현을 제공한다.
제안 방법
- 양방향 인코딩을 위한 자동인코딩(AE)과 시퀀스-투-시퀀스 디코딩을 위한 부분적으로 자기회귀(PAR) 두 가지 MLM 목표를 정의한다.
- 원래 토큰과 위치 임베딩을 공유하는 의사 마스크 [Pseudo]를 도입하여 단일 순전파에서 AE와 PAR 간에 공통 컨텍스트를 가능하게 한다.
- 블록 단위 마스킹과 인수분해 순서를 사용하여 PAR에서 구간을 예측 단위로 허용하고(단일 토큰뿐 아니라 구간도 가능)한다.
- 컨텍스트 접근성을 제어하고 인수분해 단계 간 정보 누출을 방지하기 위해 자기 주의 마스크를 설계한다.
- L = L_AE + L_PAR로 두 목표를 함께 최적화하고 태스크 간은 숨겨진 상태를 재사용하도록 학습한다.
- NLU 태스크에는 양방향 인코더로, NLG 태스크에는 자기회귀 디코더로 미세조정하고 태스크별 출력으로 설정한다.
실험 결과
연구 질문
- RQ1AE와 PAR를 PMLM으로 결합한 통합 사전 학습 프레임워크가 이해 및 생성 태스크 모두를 향상시킬 수 있는가?
- RQ2마스킹 전략과 인수분해 순서가 토큰 간/구간 간 관계의 학습에 어떤 영향을 미치는가?
- RQ3AE와 PAR 간 매개변수 공유가 성능을 저하시키지 않으면서 효율성을 높이는가?
- RQ4UniLMv2를 사용할 때 SQuAD, GLUE, 추상적 요약 벤치마크에서의 실증적 이득은 무엇인가?
주요 결과
- SQuAD에서 UniLMv2 베이스는 v1.1에서 93.1 F1 및 87.1 EM을 달성하고, v2.0에서 86.1 F1 및 83.3 EM을 달성한다.
- GLUE에서 UniLMv2 베이스는 MNLI, SST-2 등 과제에서 BERT-base 및 XLNet-base를 능가하며, MNLI 정확도 88.5, SST-2 정확도 95.1과 같은 두드러진 이점을 보인다.
- 추상 요약에서 UniLMv2 베이스는 CNN/DailyMail과 XSum에서 강한 ROUGE 점수를 달성하여 여러 베이스라인 및 비슷한 규모의 모델들을 능가한다.
- 질문 생성 및 기타 NLG 태스크에서 UniLMv2 베이스가 BLEU/METEOR/ROUGE 지표에서 베이스라인 및 일부 더 큰 사전 학습 모델에 비해 우수한 성과를 보인다.
- 절제 연구는 AE+PAR 공동 학습이 사전 학습 목표들 중 최상의 결과를 낳으며, PAR이 구간 수준 모델링에 강점을 보이고 블록 마스킹이 장거리 의존성 포착을 강화한다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.