QUICK REVIEW

[논문 리뷰] ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training

Weizhen Qi, Yu Yan|arXiv (Cornell University)|2020. 01. 13.

Topic Modeling참고 문헌 45인용 수 83

한 줄 요약

ProphetNet은 미래 n-그램 예측 목표와 n-stream 자기-자 attention을 통해 Seq2Seq 사전학습에서 최첨단 결과를 달성하며, 각 스텝에서 여러 미래 토큰을 예측하고 추론 단계에서 표준 Transformer 디코더로 변환 가능하다.

ABSTRACT

This paper presents a new sequence-to-sequence pre-training model called ProphetNet, which introduces a novel self-supervised objective named future n-gram prediction and the proposed n-stream self-attention mechanism. Instead of optimizing one-step-ahead prediction in the traditional sequence-to-sequence model, the ProphetNet is optimized by n-step ahead prediction that predicts the next n tokens simultaneously based on previous context tokens at each time step. The future n-gram prediction explicitly encourages the model to plan for the future tokens and prevent overfitting on strong local correlations. We pre-train ProphetNet using a base scale dataset (16GB) and a large-scale dataset (160GB), respectively. Then we conduct experiments on CNN/DailyMail, Gigaword, and SQuAD 1.1 benchmarks for abstractive summarization and question generation tasks. Experimental results show that ProphetNet achieves new state-of-the-art results on all these datasets compared to the models using the same scale pre-training corpus.

연구 동기 및 목표

향후 토큰을 예측하는 것뿐만 아니라 미래 토큰 계획을 통해 Seq2Seq 사전학습을 개선하려는 동기 부여.
과거 로컬 상관관계에 대한 과적합을 줄이기 위해 미래 n-그램 예측을 자기감독 목표로 도입.
다수의 미래 토큰을 동시 예측할 수 있는 n-stream 자기-어텐션 메커니즘을 개발.
생성 시 predicting streams를 비활성화하여 모델이 표준 추론과 호환되도록 보장.
벤치마크 NLG 태스크에서 광범위한 어블레이션 및 비교를 통해 효과를 입증

제안 방법

미래 토큰 예측 스트림의 추가 세트를 가진 Transformer 인코더-디코더 확장(n-stream self-attention).
미래 n-그램 손실을 전통적인 언어 모델링 손실과 다음 n-1 미래 토큰 예측 손실(감쇠 가중치 포함)의 조합으로 정의.
마스크 기반 span 마스킹을 적응시켜 n-그램을 예측하도록 수정된 디노이징 오토인코더 objective로 학습.
512 입력 길이와 span 마스킹을 사용한 MASS/BART/T5와 유사한 설정으로 16GB(베이스) 및 160GB(라지) 코퍼스에서 사전학습.
추론 시 predicting streams를 비활성화하여 모델이 표준 다음 토큰 예측으로 축소되도록 함.
생성 품질을 평가하기 위해 CNN/DailyMail, Gigaword, 및 SQuAD 1.1 QG 태스크에서 파인튜닝

실험 결과

연구 질문

RQ1미래 n-그램 예측이 한 단계 앞선 예측에 비해 생성된 텍스트의 장기 의존성 캡처 및 전반적 일관성을 향상시키는가?
RQ2n-stream 자기-어텐션 디코더가 학습 중 다수의 미래 토큰을 예측하도록 효과적으로 학습하면서 표준 추론과의 호환성을 유지하는가?
RQ3다른 사전학습된 Seq2Seq 모델에 비해 추상적 요약 및 질문 생성 벤치마크에서 ProphetNet의 성능은 어떠한가?

주요 결과

Method	R-1	R-2	R-L
Lead-3	40.42	17.62	36.67
PTGEN	36.44	15.66	33.42
PTGEN+Coverage	39.53	17.28	36.38
S2S-ELMo	41.56	18.94	38.47
Bottom-Up	41.22	18.68	38.34
BERTSUMABS	41.72	19.39	38.76
BERTSUMEXTABS	42.13	19.60	39.18
MASS	42.12	19.50	39.01
UniLM	43.33	20.21	40.51
ProphetNet	43.68	20.64	40.72

ProphetNet은 CNN/DailyMail에서 43.68 (R-1), 20.64 (R-2), 40.72 (R-L)로 최첨단 ROUGE 점수를 달성한다.
Gigaword에서 ProphetNet은 기준치들을 상회하며 표 2의 최고치를 기록하는 등 모든 지표에서 우수한 성능을 보인다.
SQuAD 1.1 질문 생성에서 ProphetNet은 기존 방법들에 비해 BLEU/METEOR/ROUGE 점수에서 선도적인 값을 얻는다.
대규모 사전학습(160GB)은 추가 이득을 가져와 CNN/DailyMail 및 Gigaword에서 SOTA를 달성하되 일부 기준 대비 훨씬 적은 사전학습 데이터로 달성한다.
사전학습 없이도 ProphetNet은 CNN/DailyMail에서 Transformer 기반 기준선을 개선한다.
n-그램 설정 간 비교에서 2-그램 및 3-그램 변형이 MASS 및 1-그램 기준선보다 우수하며, 2-그램이 속도-정확도 트레이드오프를 우호적으로 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.