[논문 리뷰] ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training
ProphetNet은 미래 n-그램 예측 목표와 n-stream 자기-자 attention을 통해 Seq2Seq 사전학습에서 최첨단 결과를 달성하며, 각 스텝에서 여러 미래 토큰을 예측하고 추론 단계에서 표준 Transformer 디코더로 변환 가능하다.
This paper presents a new sequence-to-sequence pre-training model called ProphetNet, which introduces a novel self-supervised objective named future n-gram prediction and the proposed n-stream self-attention mechanism. Instead of optimizing one-step-ahead prediction in the traditional sequence-to-sequence model, the ProphetNet is optimized by n-step ahead prediction that predicts the next n tokens simultaneously based on previous context tokens at each time step. The future n-gram prediction explicitly encourages the model to plan for the future tokens and prevent overfitting on strong local correlations. We pre-train ProphetNet using a base scale dataset (16GB) and a large-scale dataset (160GB), respectively. Then we conduct experiments on CNN/DailyMail, Gigaword, and SQuAD 1.1 benchmarks for abstractive summarization and question generation tasks. Experimental results show that ProphetNet achieves new state-of-the-art results on all these datasets compared to the models using the same scale pre-training corpus.
연구 동기 및 목표
- 향후 토큰을 예측하는 것뿐만 아니라 미래 토큰 계획을 통해 Seq2Seq 사전학습을 개선하려는 동기 부여.
- 과거 로컬 상관관계에 대한 과적합을 줄이기 위해 미래 n-그램 예측을 자기감독 목표로 도입.
- 다수의 미래 토큰을 동시 예측할 수 있는 n-stream 자기-어텐션 메커니즘을 개발.
- 생성 시 predicting streams를 비활성화하여 모델이 표준 추론과 호환되도록 보장.
- 벤치마크 NLG 태스크에서 광범위한 어블레이션 및 비교를 통해 효과를 입증
제안 방법
- 미래 토큰 예측 스트림의 추가 세트를 가진 Transformer 인코더-디코더 확장(n-stream self-attention).
- 미래 n-그램 손실을 전통적인 언어 모델링 손실과 다음 n-1 미래 토큰 예측 손실(감쇠 가중치 포함)의 조합으로 정의.
- 마스크 기반 span 마스킹을 적응시켜 n-그램을 예측하도록 수정된 디노이징 오토인코더 objective로 학습.
- 512 입력 길이와 span 마스킹을 사용한 MASS/BART/T5와 유사한 설정으로 16GB(베이스) 및 160GB(라지) 코퍼스에서 사전학습.
- 추론 시 predicting streams를 비활성화하여 모델이 표준 다음 토큰 예측으로 축소되도록 함.
- 생성 품질을 평가하기 위해 CNN/DailyMail, Gigaword, 및 SQuAD 1.1 QG 태스크에서 파인튜닝
실험 결과
연구 질문
- RQ1미래 n-그램 예측이 한 단계 앞선 예측에 비해 생성된 텍스트의 장기 의존성 캡처 및 전반적 일관성을 향상시키는가?
- RQ2n-stream 자기-어텐션 디코더가 학습 중 다수의 미래 토큰을 예측하도록 효과적으로 학습하면서 표준 추론과의 호환성을 유지하는가?
- RQ3다른 사전학습된 Seq2Seq 모델에 비해 추상적 요약 및 질문 생성 벤치마크에서 ProphetNet의 성능은 어떠한가?
주요 결과
| Method | R-1 | R-2 | R-L |
|---|---|---|---|
| Lead-3 | 40.42 | 17.62 | 36.67 |
| PTGEN | 36.44 | 15.66 | 33.42 |
| PTGEN+Coverage | 39.53 | 17.28 | 36.38 |
| S2S-ELMo | 41.56 | 18.94 | 38.47 |
| Bottom-Up | 41.22 | 18.68 | 38.34 |
| BERTSUMABS | 41.72 | 19.39 | 38.76 |
| BERTSUMEXTABS | 42.13 | 19.60 | 39.18 |
| MASS | 42.12 | 19.50 | 39.01 |
| UniLM | 43.33 | 20.21 | 40.51 |
| ProphetNet | 43.68 | 20.64 | 40.72 |
- ProphetNet은 CNN/DailyMail에서 43.68 (R-1), 20.64 (R-2), 40.72 (R-L)로 최첨단 ROUGE 점수를 달성한다.
- Gigaword에서 ProphetNet은 기준치들을 상회하며 표 2의 최고치를 기록하는 등 모든 지표에서 우수한 성능을 보인다.
- SQuAD 1.1 질문 생성에서 ProphetNet은 기존 방법들에 비해 BLEU/METEOR/ROUGE 점수에서 선도적인 값을 얻는다.
- 대규모 사전학습(160GB)은 추가 이득을 가져와 CNN/DailyMail 및 Gigaword에서 SOTA를 달성하되 일부 기준 대비 훨씬 적은 사전학습 데이터로 달성한다.
- 사전학습 없이도 ProphetNet은 CNN/DailyMail에서 Transformer 기반 기준선을 개선한다.
- n-그램 설정 간 비교에서 2-그램 및 3-그램 변형이 MASS 및 1-그램 기준선보다 우수하며, 2-그램이 속도-정확도 트레이드오프를 우호적으로 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.