[논문 리뷰] MASS: Masked Sequence to Sequence Pre-training for Language Generation
MASS는 문장의 마스킹된 조각을 예측함으로써 인코더–디코더 모델을 사전 학습하고, NMT, 텍스트 요약, 대화 응답 생성과 같은 제로/저자원 언어 생성 작업의 성능을 향상시키며, 감독되지 않는 NMT BLEU 점수에서 최신 성능을 달성합니다.
Pre-training and fine-tuning, e.g., BERT, have achieved great success in language understanding by transferring knowledge from rich-resource pre-training task to the low/zero-resource downstream tasks. Inspired by the success of BERT, we propose MAsked Sequence to Sequence pre-training (MASS) for the encoder-decoder based language generation tasks. MASS adopts the encoder-decoder framework to reconstruct a sentence fragment given the remaining part of the sentence: its encoder takes a sentence with randomly masked fragment (several consecutive tokens) as input, and its decoder tries to predict this masked fragment. In this way, MASS can jointly train the encoder and decoder to develop the capability of representation extraction and language modeling. By further fine-tuning on a variety of zero/low-resource language generation tasks, including neural machine translation, text summarization and conversational response generation (3 tasks and totally 8 datasets), MASS achieves significant improvements over the baselines without pre-training or with other pre-training methods. Specially, we achieve the state-of-the-art accuracy (37.5 in terms of BLEU score) on the unsupervised English-French translation, even beating the early attention-based supervised model.
연구 동기 및 목표
- 인코더–디코더 아키텍처를 가진 언어 생성 작업에 대한 사전 학습의 필요성을 제시한다.
- 마스크된 문장 조각을 재구성하여 인코더와 디코더를 공동으로 사전 학습하도록 MASS를 제안한다.
- MASS가 제로/저자원 NMT, 요약 및 대화 응답 생성에서 기준선보다 성능을 향상시킴을 보인다.
- 여러 언어쌍에서 MASS가 감독되지 않는 NMT BLEU 점수에서 최신 성능을 달성함을 입증한다.
제안 방법
- 모형은 Transformer 인코더–디코더 아키텍처를 사용한다.
- 입력은 특수 기호로 연속된 조각이 마스킹된 문장이고, 디코더는 인코더 표현에 조건화된 마스킹된 조각을 예측한다.
- 마스킹 길이 k는 하이퍼파라미터이며, MASS는 MLM(BERT)과 표준 LM(GPT)을 특수한 경우로 일반화한다.
- 인코더 입력은 토큰의 80%를 [M]로 마스킹하고, 10%는 임의의 토큰, 10%는 변경 없이 남겨 학습 균형을 맞춘다.
- 사전 학습 중 MASS는 인코더에서 연속 토큰을 마스킹하고, 인코더에서 마스킹되지 않은 디코더 입력 토큰도 마스킹하여 인코더가 표현에 의지하도록 한다.
실험 결과
연구 질문
- RQ1MASS가 비라벨 데이터에서 인코더와 디코더를 공동으로 사전 학습하여 언어 생성 작업에 이익을 줄 수 있는가?
- RQ2마스킹된 조각 길이 k가 사전 학습의 효과성과 하류 작업 성능에 어떤 영향을 미치는가?
- RQ3제로/저자원 설정에서 MASS가 인코더–디코더 생성 작업에 대해 기존의 사전 학습 방법(BERT+LM, DAE, XLM)보다 우수한가?
- RQ4MASS가 NMT, 텍스트 요약, 대화 응답 생성과 같은 다양한 생성 작업에서 효과적인가?
주요 결과
- MASS는 제로/감독 없는 NMT에서 여섯 가지 번역 방향에 걸쳐 이전 방법을 능가하며, MASS 6-layer Transformer 구성에서 en-fr BLEU는 37.50, en-ro BLEU는 35.20이다.
- 제로/저자원 NMT에서 MASS는 연구된 모든 언어 쌍에 대해 이중언어 데이터만으로 학습된 기준선 및 이전 사전 학습 방법을 일관되게 능가한다.
- 텍스트 요약에서 MASS는 여러 데이터 규모에서 기준선 대비 ROUGE 점수를 향상시키며, 10K 데이터만으로도 주목할 만한 이득을 보인다.
- 대화 응답 생성에서 MASS는 10K 및 110K 데이터 설정 모두에서 기준선보다 낮은 혼란도(perplexity)를 보인다.
- Ablation 연구는 연속 토큰 마스킹(무작위 이산 마스킹 대 상)과 마스킹된 디코더 입력 공급이 MASS의 효과에 결정적임을 보여주며, MASS는 이산 마스킹 및 피드 변형을 지속적으로 능가한다.
- 작업 전반에 걸쳐 MASS는 감독되지 않은 NMT에서 최신 성능을 달성하고, 영어-프랑스어에서 이전 최고를 BLEU 포인트로 4점 이상 상회한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.