[논문 리뷰] Text Summarization with Pretrained Encoders
본 논문은 BERT 기반 인코더를 추출적 및 추상적 단일 문서 요약 모두에 적용하는 것을 탐구하고, 문서 수준의 BertSum 인코더를 문장 수준 표현으로 도입하며, CNN/DailyMail, NYT, XSum 데이터셋에서 최첨단 성능을 보이는 결과를 제시한다.
Bidirectional Encoder Representations from Transformers (BERT) represents the latest incarnation of pretrained language models which have recently advanced a wide range of natural language processing tasks. In this paper, we showcase how BERT can be usefully applied in text summarization and propose a general framework for both extractive and abstractive models. We introduce a novel document-level encoder based on BERT which is able to express the semantics of a document and obtain representations for its sentences. Our extractive model is built on top of this encoder by stacking several inter-sentence Transformer layers. For abstractive summarization, we propose a new fine-tuning schedule which adopts different optimizers for the encoder and the decoder as a means of alleviating the mismatch between the two (the former is pretrained while the latter is not). We also demonstrate that a two-staged fine-tuning approach can further boost the quality of the generated summaries. Experiments on three datasets show that our model achieves state-of-the-art results across the board in both extractive and abstractive settings. Our code is available at https://github.com/nlpyang/PreSumm
연구 동기 및 목표
- 사전학습된 언어 모델, 특히 BERT가 텍스트 요약을 어떻게 개선할 수 있는지 평가한다.
- 요약에 적합한 문장 표현을 얻기 위해 문서 수준 인코더를 개발한다.
- BERT 기반 프레임워크 내에서 추출적 및 추상적 요약을 모두 탐구한다.
제안 방법
- BERT 위에 구축된 문서 수준 인코더인 BertSum을 도입하고, 문장 시작 위치에 [cls] 토큰을 삽입해 문장 표현을 얻는다.
- 문장 간 인터레이어 트랜스포머 계층을 BertSum 위에 쌓아 문서 수준 특징을 포착해 추출적 선택을 향상시킨다.
- 추상적 요약의 경우 사전학습된 BertSum 인코더와 무작위로 초기화된 트랜스포머 디코더를 사용하는 인코더–디코더 구조를 사용하고, 인코더와 디코더에 대해 별도의 옵티마이저를 고용한다.
- 두 단계 미세조정으로 먼저 추출적 요약에서, 그 다음 추상적 요약에서 미세조정하는 방식을 제안한다.
- 드롭아웃, 라벨 스무딩, 빔 서치를 사용한 일반적인 학습 스케줄로 학습하고, 재현을 줄이기 위해 트라이그램 차단을 적용한다.
실험 결과
연구 질문
- RQ1사전학습된 Bert 인코더가 추출적 요약에 적합한 문장 수준 표현을 제공할 수 있는가?
- RQ2무작위로 초기화된 디코더와의 생성 불일치를 처리하기 위해 Bert를 추상적 요약에 효과적으로 적용할 수 있는 방법은 무엇인가?
- RQ3두 단계 미세조정(추출적 다음 추상적)이 요약 품질을 향상시키는가?
- RQ4다양한 스타일의 단일 문서 요약 데이터셋에서도 Bert 기반 모델이 최첨단 결과를 달성하는가?
주요 결과
- BertSumExt(문장 간 계층 포함)은 CNN/DailyMail에서 기본 모델 대비 추출적 ROUGE 점수를 향상시킨다.
- BertSumExtAbs 및 BertSumAbs는 추상적 ROUGE 점수에서 우수한 성능을 달성하며, 여러 데이터셋에서 기존의 최첨단 결과에 접근하거나 이를 상회한다.
- 인코더와 디코더에 대한 듀얼 옵티마이저 파인 튜닝 스케줄은 안정적인 학습을 제공하며, 우호적인 학습률 구성(최고: 인코더 lr 약 2e-3, 디코더 lr 약 0.1)을 식별한다.
- 두 단계 미세조정 방식(추출적 선행, 추상적 후행)은 단일 단계 학습보다 이점을 제공한다.
- XSum에서 추상적 Bert 기반 모델은 데이터셋의 더 높은 추상화성으로 인해 많은 베이스라인을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.