Skip to main content
QUICK REVIEW

[논문 리뷰] Unified Language Model Pre-training for Natural Language Understanding and Generation

Li Dong|arXiv (Cornell University)|2019. 05. 08.
Topic Modeling참고 문헌 48인용 수 949
한 줄 요약

UniLM은 단일 Transformer를 사용하고 구성 가능한 self-attention 마스크로 양방향, 단방향, 시퀀스-투-시퀀스 목표를 지원하여 NLU와 NLG를 모두 위한 사전 학습을 통합하고, GLUE, SQuAD 2.0, CoQA 및 여러 생성 태스크에서 강력한 결과를 달성합니다.

ABSTRACT

This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language modeling tasks: unidirectional, bidirectional, and sequence-to-sequence prediction. The unified modeling is achieved by employing a shared Transformer network and utilizing specific self-attention masks to control what context the prediction conditions on. UniLM compares favorably with BERT on the GLUE benchmark, and the SQuAD 2.0 and CoQA question answering tasks. Moreover, UniLM achieves new state-of-the-art results on five natural language generation datasets, including improving the CNN/DailyMail abstractive summarization ROUGE-L to 40.51 (2.04 absolute improvement), the Gigaword abstractive summarization ROUGE-L to 35.75 (0.86 absolute improvement), the CoQA generative question answering F1 score to 82.5 (37.1 absolute improvement), the SQuAD question generation BLEU-4 to 22.12 (3.75 absolute improvement), and the DSTC7 document-grounded dialog response generation NIST-4 to 2.67 (human performance is 2.65). The code and pre-trained models are available at https://github.com/microsoft/unilm.

연구 동기 및 목표

  • 단일하고 통합된 사전 학습 프레임워크를 통해 NLU와 NLG 태스크를 모두 다룬다.
  • 다른 태스크를 위한 개별 LM을 유지하는 데 따른 복잡성 및 자원 필요를 줄인다.
  • 여러 언어 모델링 목표에 대한 공동 최적화를 통해 일반화 가능한 표현을 학습한다.
  • 이해(GLUE, QA)와 생성(요약, Q&A, 대화)을 아우르는 벤치마크에서 강력한 성능을 보임을 입증한다.

제안 방법

  • 모든 LM 목표에 걸쳐 매개변수를 공유하는 다층 Transformer를 사용한다.
  • 단방향 LM, 양방향 LM, 시퀀스-투-시퀀스 LM의 세 가지 유형의 클로즈 기반(pre-training) 작업을 설계하고 적용한다.
  • 예측 시 각 토큰의 컨텍스트 접근성을 제어하기 위해 자기-주의(mask) 마스크를 구현한다.
  • 각 배치에서 1/3 양방향, 1/3 시퀀스-투-시퀀스, 1/3 단방향의 균형 잡힌 목표 혼합으로 사전 학습을 수행한다.
  • 다운스트림 태스크에 맞춰 마스킹 스키마를 조정하고 필요에 따라 태스크 특화 레이어를 추가하여 파인튜닝한다.
  • BERT_LARGE에서 초기화하고 English Wikipedia와 BookCorpus에서 학습; WordPiece 토크나이제이션 및 28,996 어휘를 사용한다.
  • 사전 학습 세부사항: 24-layer Transformer, 1024 hidden size, 16 heads, 약 340M 파라미터; 8 V100 GPU로 ~770k 스텝 학습; 학습률 3e-5, 워밍업 40k 스텝, dropout 0.1이다.

실험 결과

연구 질문

  • RQ1단일 사전 학습된 Transformer를 NLU와 NLG 태스크에 모두 대해 unified 목표로 효과적으로 파인튜닝할 수 있는가?
  • RQ2통합 사전 학습 목표가 표준 벤치마크에서 태스크별 LM 대비 경쟁력 있거나 더 우수한 성능을 이끌어내는가?
  • RQ3다수의 LM 목표를 사용해 사전 학습된 모델이 요약, 질문 생성, 대화 응답 생성을 비롯한 생성 태스크의 성능을 얼마나 향상시킬 수 있는가?
  • RQ4UniLM를 사용할 때 구조적 QA 벤치(SQuAD 2.0, CoQA) 및 생성 벤치마크에서의 비교적 이점은 무엇인가?

주요 결과

  • UniLM은 GLUE에서 BERT와 비교해 우세했고 SQuAD 2.0 및 CoQA 추출형 QA에서 우수한 성능을 보였다.
  • 다섯 개의 NLG 데이터셋에서 UniLM은 새로운 최첨단 결과를 달성했다: CNN/DailyMail 추출적 요약의 ROUGE-L 40.51, Gigaword ROUGE-L 35.75, CoQA 생성형 QA F1 82.5, SQuAD QG BLEU-4 22.12, 그리고 DSTC7 대화 응답 생성 NIST-4 2.67(Human 2.65).
  • 추상적 요약에서 UniLM은 기존의 추상 시스템을 능가했고 CNN/DailyMail에서 강력한 추출 모델보다도 ROUGE-L이 0.88 향상되었다.
  • CoQA의 생성형 QA에서 Seq2Seq 및 PGNet 대비 큰 이득(F1 82.5)을 달성했다.
  • SQuAD에서 질문 생성에 대해 UniLM이 BLEU-4 22.12, METEOR 25.06, ROUGE-L 51.07로 이전 모델을 능가했다.
  • GLUE 결과는 UniLM이 여러 태스크에서 BERT_LARGE에 비견되는 성능을 보임을 시사한다(표 11).
  • 모델은 NLU의 인코더 및 NLG의 인코더-디코더로 기능할 수 있어, 통합 사전 학습을 통한 태스크 간 전이 가능성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.