Skip to main content
QUICK REVIEW

[논문 리뷰] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

Sandeep Subramanian, Raymond Li|arXiv (Cornell University)|2019. 09. 07.
Topic Modeling참고 문헌 36인용 수 25
한 줄 요약

이 논문은 장문의 문서에 대한 개괄적 요약을 위한 이단계적 접근법을 제안한다. 이는 트랜스포머 언어 모델을 사용하며, 추출적 문장 선택이 개괄적 생성을 조건화한다. 문서와 추출된 핵심 문장에 기반해 모델을 조건화함으로써, 복사 메커니즘에 의존하는 이전 방법보다 더 높은 ROUGE 점수와 더 개괄적인 출력을 달성한다. 이는 과도한 복사 현상을 줄이며 요약 품질을 향상시킨다.

ABSTRACT

We present a method to produce abstractive summaries of long documents that exceed several thousand words via neural abstractive summarization. We perform a simple extractive step before generating a summary, which is then used to condition the transformer language model on relevant information before being tasked with generating a summary. We show that this extractive step significantly improves summarization results. We also show that this approach produces more abstractive summaries compared to prior work that employs a copy mechanism while still achieving higher rouge scores. Note: The abstract above was not written by the authors, it was generated by one of the models presented in this paper.

연구 동기 및 목표

  • 시퀀스-투-시퀀스 모델을 넘어서 장문의 문서(예: 과학 논문, 특허)에 대한 개괄적 요약을 향상시키기 위해.
  • 복사 메커니즘에 의존함으로써 추출적 요약과 유사한 요약을 생성하는 데서 벗어나, 진정으로 개괄적인 생성을 증가시키기 위해.
  • 전체 문서와 추출된 핵심 문장에 기반해 단일 트랜스포머 언어 모델을 조건화함으로써 요약 품질을 향상시킬 수 있음을 보여주기 위해.
  • 이 방법이 복사 메커니즘을 사용하는 이전 방법보다 ROUGE 점수에서 뛰어나며, 더 다듬어진 표현, 더 적은 복사로 이루어진 요약을 생성함을 보여주기 위해.

제안 방법

  • 추출 단계에서는 포인터 네트워크 또는 문장 분류기를 사용하여 장문의 문서에서 중요한 문장을 식별한다.
  • 추출된 문장은 문서의 서론과 나머지 텍스트와 함께 고정된 순서 형식으로 결합된다: 서론, 추출된 문장, 초록, 나머지 텍스트.
  • 이 구조화된 입력-출력 형식에 대해 단일 GPT 유사 트랜스포머 언어 모델을 미세조정하여 요약을 생성한다.
  • 추론 단계에서는 모델이 최종 개괄적 요약을 생성하기 위해 서론과 추출된 문장에만 기반해 조건화된다.
  • 모델은 전체 문서의 맥락과 핵심 내용을 활용하여 참조 요약을 자동회귀적으로 예측하도록 훈련된다.
  • 이 방법은 명시적인 인코더-디코더 아키텍처를 피하고, 통합된 자동회귀 언어 모델링 설정을 사용한다.

실험 결과

연구 질문

  • RQ1전용 인코더-디코더 아키텍처 없이도 단일 자동회귀 트랜스포머 언어 모델이 장문의 문서에 대해 고품질의 개괄적 요약을 생성할 수 있는가?
  • RQ2추출된 핵심 문장에 기반해 개괄적 생성을 조건화하면 직접 입력에 기반해 조건화하는 것보다 요약 품질과 개괄적 성격이 향상되는가?
  • RQ3이 방법은 복사 메커니즘을 사용하는 모델에 비해 원본 텍스트에서의 복사 의존도를 어느 정도 줄이는가?
  • RQ4이전의 추출적 및 개괄적 모델과 비교했을 때, 이 방법은 ROUGE 점수와 요약의 개괄적 품질 측면에서 어떻게 다른가?
  • RQ5이 이단계적 추출-개괄적 프레임워크는 과학 논문, 의료 초록, 특허와 같은 다양한 분야에 효과적으로 적용될 수 있는가?

주요 결과

  • 제안된 방법은 arXiv, PubMed, bigPatent 데이터셋에서 이전의 추출적 및 개괄적 모델보다 더 높은 ROUGE 점수를 달성한다.
  • 추출된 문장에 기반해 조건화된 모델은 복사 현상을 줄였다: 생성된 요약의 20-그램 중 약 10%만 원본 기사에 존재하며, 복사 메커니즘을 사용하는 모델의 경우 10% 이상이 복사되었다.
  • 5-그램의 경우, 약 두-thirds의 복사된 n-그램이 추출된 문장에서 유래했으며, 이는 추출 단계가 개괄적 생성을 위한 강력하고 집중된 맥락을 제공한다는 것을 시사한다.
  • 복사 메커니즘을 사용하는 이전 작업에 비해 더 개괄적인 요약을 생성함을 입증하였으며, 이는 원본 텍스트와의 n-그램 겹침 비율이 낮고, 더 뛰어난 어휘 재구성 능력을 보여준다.
  • 추출 단계는 요약 결과에 상당한 영향을 미치며, ROUGE 점수와 인간 평가 지표 모두에서 명확한 정량적 향상을 보였다.
  • 이 방법은 다양한 분야에서 뛰어난 성능을 보이며 과학 논문, 생물의학 텍스트, 특허 등에 대해 강건한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.