QUICK REVIEW

[논문 리뷰] Text Summarization with Pretrained Encoders

Yang Liu, Mirella Lapata|arXiv (Cornell University)|2019. 08. 22.

Topic Modeling참고 문헌 34인용 수 150

한 줄 요약

본 논문은 BERT 기반 인코더를 추출적 및 추상적 단일 문서 요약 모두에 적용하는 것을 탐구하고, 문서 수준의 BertSum 인코더를 문장 수준 표현으로 도입하며, CNN/DailyMail, NYT, XSum 데이터셋에서 최첨단 성능을 보이는 결과를 제시한다.

ABSTRACT

Bidirectional Encoder Representations from Transformers (BERT) represents the latest incarnation of pretrained language models which have recently advanced a wide range of natural language processing tasks. In this paper, we showcase how BERT can be usefully applied in text summarization and propose a general framework for both extractive and abstractive models. We introduce a novel document-level encoder based on BERT which is able to express the semantics of a document and obtain representations for its sentences. Our extractive model is built on top of this encoder by stacking several inter-sentence Transformer layers. For abstractive summarization, we propose a new fine-tuning schedule which adopts different optimizers for the encoder and the decoder as a means of alleviating the mismatch between the two (the former is pretrained while the latter is not). We also demonstrate that a two-staged fine-tuning approach can further boost the quality of the generated summaries. Experiments on three datasets show that our model achieves state-of-the-art results across the board in both extractive and abstractive settings. Our code is available at https://github.com/nlpyang/PreSumm

연구 동기 및 목표

사전학습된 언어 모델, 특히 BERT가 텍스트 요약을 어떻게 개선할 수 있는지 평가한다.
요약에 적합한 문장 표현을 얻기 위해 문서 수준 인코더를 개발한다.
BERT 기반 프레임워크 내에서 추출적 및 추상적 요약을 모두 탐구한다.

제안 방법

BERT 위에 구축된 문서 수준 인코더인 BertSum을 도입하고, 문장 시작 위치에 [cls] 토큰을 삽입해 문장 표현을 얻는다.
문장 간 인터레이어 트랜스포머 계층을 BertSum 위에 쌓아 문서 수준 특징을 포착해 추출적 선택을 향상시킨다.
추상적 요약의 경우 사전학습된 BertSum 인코더와 무작위로 초기화된 트랜스포머 디코더를 사용하는 인코더–디코더 구조를 사용하고, 인코더와 디코더에 대해 별도의 옵티마이저를 고용한다.
두 단계 미세조정으로 먼저 추출적 요약에서, 그 다음 추상적 요약에서 미세조정하는 방식을 제안한다.
드롭아웃, 라벨 스무딩, 빔 서치를 사용한 일반적인 학습 스케줄로 학습하고, 재현을 줄이기 위해 트라이그램 차단을 적용한다.

실험 결과

연구 질문

RQ1사전학습된 Bert 인코더가 추출적 요약에 적합한 문장 수준 표현을 제공할 수 있는가?
RQ2무작위로 초기화된 디코더와의 생성 불일치를 처리하기 위해 Bert를 추상적 요약에 효과적으로 적용할 수 있는 방법은 무엇인가?
RQ3두 단계 미세조정(추출적 다음 추상적)이 요약 품질을 향상시키는가?
RQ4다양한 스타일의 단일 문서 요약 데이터셋에서도 Bert 기반 모델이 최첨단 결과를 달성하는가?

주요 결과

BertSumExt(문장 간 계층 포함)은 CNN/DailyMail에서 기본 모델 대비 추출적 ROUGE 점수를 향상시킨다.
BertSumExtAbs 및 BertSumAbs는 추상적 ROUGE 점수에서 우수한 성능을 달성하며, 여러 데이터셋에서 기존의 최첨단 결과에 접근하거나 이를 상회한다.
인코더와 디코더에 대한 듀얼 옵티마이저 파인 튜닝 스케줄은 안정적인 학습을 제공하며, 우호적인 학습률 구성(최고: 인코더 lr 약 2e-3, 디코더 lr 약 0.1)을 식별한다.
두 단계 미세조정 방식(추출적 선행, 추상적 후행)은 단일 단계 학습보다 이점을 제공한다.
XSum에서 추상적 Bert 기반 모델은 데이터셋의 더 높은 추상화성으로 인해 많은 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.