[논문 리뷰] Unified Language Model Pre-training for Natural Language Understanding and Generation
UniLM은 단일 Transformer를 사전 학습시켜 NLU와 NLG를 모두 지원하기 위해 공유 파라미터를 사용하고, 단방향, 양방향 및 시퀀스-투-시퀀스 목표를 구현하는 세 가지 셀프 어텐션 마스크를 통해 GLUE, SQuAD 2.0, CoQA 및 다수의 요약 및 생성 작업에서 강력한 결과를 달성합니다.
This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language modeling tasks: unidirectional, bidirectional, and sequence-to-sequence prediction. The unified modeling is achieved by employing a shared Transformer network and utilizing specific self-attention masks to control what context the prediction conditions on. UniLM compares favorably with BERT on the GLUE benchmark, and the SQuAD 2.0 and CoQA question answering tasks. Moreover, UniLM achieves new state-of-the-art results on five natural language generation datasets, including improving the CNN/DailyMail abstractive summarization ROUGE-L to 40.51 (2.04 absolute improvement), the Gigaword abstractive summarization ROUGE-L to 35.75 (0.86 absolute improvement), the CoQA generative question answering F1 score to 82.5 (37.1 absolute improvement), the SQuAD question generation BLEU-4 to 22.12 (3.75 absolute improvement), and the DSTC7 document-grounded dialog response generation NIST-4 to 2.67 (human performance is 2.65). The code and pre-trained models are available at https://github.com/microsoft/unilm.
연구 동기 및 목표
- 하나의 사전 학습 모델로 자연어 이해와 생성 작업을 모두 처리할 수 있도록 동기부여
- 공유 파라미터를 사용하는 다중 언어 모델링 목표를 활용한 통합 사전 학습 프레임워크 개발
- 통합 모델이 NLU 벤치마크에서 태스크별 LM과 대등하거나 우수한지, NLG 태스크에서 최첨단 결과를 달성하는지 보여주기
제안 방법
- BERT-LARGE에서 초기화되며 Wikipedia와 BookCorpus에서 학습된 1024 히든 유닛과 16 헤드를 가진 24-layer Transformer 사용
- 세 가지 언어 모델링 목표를 셀프 어텐션 마스크를 통해 구현: 단방향(왼쪽에서 오른쪽 및 오른쪽에서 왼쪽), 양방향, 시퀀스-투-시퀀스
- SOS 및 EOS 토큰으로 입력을 단일 시퀀스로 패킹하고 28996 어휘의 WordPiece 토큰화를 적용; 15% 마스킹과 표준 MLM 규칙 적용
- 하류 태스크에 맞춰 태스크별 마스크를 적용하고, 적절한 경우 NLU를 위한 양방향 인코더나 NLG를 위한 시퀀스-투-시퀀스 인코더-디코더로 모델을 변환
- 목표 간에 배치 혼합(1/3 양방향, 1/3 seq2seq, 1/6 좌향-우향, 1/6 우향)과 표준 최적화 설정(Adam, 워밍업, 감소)으로 함께 최적화
- GLUE, SQuAD 2.0, CoQA, CNN/DailyMail, Gigaword, DSTC7, SQuAD 질의 생성, CoQA 생성 QA에서 평가
실험 결과
연구 질문
- RQ1단일 Transformer 모델이 Unified 사전 학습 목표로 학습될 때 NLP 이해 및 생성 작업 모두에서 잘 작동할 수 있는가?
- RQ2단방향, 양방향, 시퀀스-투-시퀀스 컨텍스트를 가능하게 하는 서로 다른 셀프 어텐션 마스크가 NLU와 NLG 벤치마크 간 전이를 개선하는가?
- RQ3UniLM을 사용할 때 태스크별 사전 학습 LM과 비교하여 표준 벤치마크(GLUE, SQuAD, CoQA) 및 생성 태스크(요약, QA 생성, 대화 응답)에서 얻는 이득은 무엇인가?
- RQ4LM 목표 간 파라미터 공유가 일반화 및 배포의 모델 다중성 감소에 유익한가?
- RQ5문서 기반 대화 생성 및 교차 도메인 생성 태스크에서 UniLM의 성능은 어떤가?
주요 결과
- GLUE 및 SQuAD 2.0/CoQA에서 추출적 QA에 대해 BERT와 경쟁력 있는 결과를 달성하면서도 강력한 생성 능력을 가능하게 함
- CNN/DailyMail 추상 요약 ROUGE-L 40.51, Gigaword ROUGE-L 35.75, CoQA 생성 QA F1 82.5, SQuAD 질의 생성 BLEU-4 22.12, DSTC7 대화 응답 생성 NIST-4 2.67의 5개 NLG 데이터셋에서 새로운 최첨단 결과를 제시
- CNN/DailyMail 및 Gigaword에서 이전 모델보다 더 우수한 추상적 요약 성능 및 생성 QA와 대화 태스크에서 강한 성능 시연
- 다양한 태스크에서 UniLM이 BERT-LARGE에 필적하는 수준의 성능을 보여주는 GLUE 평가
- UniLM으로의 질의 생성이 SQuAD 데이터세트에서 최첨단 BLEU-4, METEOR, ROUGE-L를 달성
- UniLM으로의 생성 QA가 CoQA에서 추출적 방법과의 격차를 상당히 좁히며 이전 생성 기반 벤치마크를 능가
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.