Skip to main content
QUICK REVIEW

[논문 리뷰] Data-driven Summarization of Scientific Articles

Nikola I. Nikolov, Michael Pfeiffer|arXiv (Cornell University)|2018. 04. 24.
Topic Modeling참고 문헌 30인용 수 31
한 줄 요약

이 논문은 제목과 초록을 다문장 요약으로 삼아 과학 논문을 데이터 기반 텍스트 요약을 위한 대규모 고품질 기준으로 활용함으로써, 장문의 요약 모델을 훈련시키는 데 적합한 자료로 활용하고자 한다. 제목-초록(500만 페퍼)과 초록-본문(90만 페퍼)이라는 두 가지 새로운 데이터셋을 제안하고, 추출형 및 생성형 신경망 모델을 평가하여 과학 논문이 다양한 아키텍처에서 강력한 성능을 보이는 장문의 요약 모델 훈련에 매우 적합하다는 것을 입증한다.

ABSTRACT

Data-driven approaches to sequence-to-sequence modelling have been successfully applied to short text summarization of news articles. Such models are typically trained on input-summary pairs consisting of only a single or a few sentences, partially due to limited availability of multi-sentence training data. Here, we propose to use scientific articles as a new milestone for text summarization: large-scale training data come almost for free with two types of high-quality summaries at different levels - the title and the abstract. We generate two novel multi-sentence summarization datasets from scientific articles and test the suitability of a wide range of existing extractive and abstractive neural network-based summarization approaches. Our analysis demonstrates that scientific papers are suitable for data-driven text summarization. Our results could serve as valuable benchmarks for scaling sequence-to-sequence models to very long sequences.

연구 동기 및 목표

  • 장문의 텍스트 요약을 위한 대규모 고품질 훈련 데이터 부족 문제를 과학 논문을 활용하여 해결하고자 한다.
  • 제목과 초록을 요약 지도로 사용하여 과학 요약을 위한 두 가지 새로운 대규모 데이터셋을 구축하고자 한다.
  • 완전한 과학 논문 본문을 입력으로 하여 초록을 요약으로 사용할 때 기존의 추출형 및 생성형 신경망 모델의 성능을 평가하고자 한다.
  • 과학 텍스트에서 장입력 및 장출력 시퀀스를 다루는 시퀀스-투-시퀀스 모델의 확장성을 확립하고자 한다.

제안 방법

  • 500만 건의 생물의학 논문에서 제목을 초록의 요약으로 삼아 title-gen 데이터셋을 구축한다.
  • 90만 건의 생물의학 논문에서 초록을 전체 논문 본문의 요약으로 삼아 abstract-gen 데이터셋을 구축한다.
  • 비지도 추출형 기준 모델로 tfidf-emb를 사용하며, TF-IDF 가중치를 적용한 단어 임베딩과 문서 중심점과의 코사인 유사도를 기반으로 문장을 순위 매긴다.
  • rwmd-rank를 사용하여 유사도를 계산하며, 리럭시드 워드 무버즈 디스턴스(Relaxed Word Mover’s Distance)를 활용하고 문장 순위 매기기 위해 LexRank 중심성 기법을 적용한다.
  • 단어, 서브워드, 문자 수준 표현을 사용하는 순환형 및 컨volutional 인코더-디코더를 포함한 다양한 신경 시퀀스-투-시퀀스 모델을 적용한다.
  • 두 데이터셋에서 다양한 모델 아키텍처를 대상으로 정량적 및 정성적 평가를 수행하여 요약 품질과 확장성 여부를 분석한다.

실험 결과

연구 질문

  • RQ1과학 논문은 데이터 기반 텍스트 요약을 위한 대규모 고품질 훈련 데이터로 유용한 자료가 될 수 있는가?
  • RQ2초록을 요약으로 삼아 전체 과학 논문 본문을 입력으로 사용할 때 추출형 및 생성형 신경망 모델의 성능은 어떠한가?
  • RQ3기존의 시퀀스-투-시퀀스 모델은 과학 텍스트에서 장입력 및 장출력 시퀀스를 다룰 수 있도록 어느 정도 확장될 수 있는가?
  • RQ4단어, 서브워드, 문자 수준의 임베딩 및 인코딩 전략은 장문의 과학 텍스트 요약 성능에 어떤 영향을 미치는가?

주요 결과

  • 입력 시퀀스 평균 1,000 토큰 이상, 출력 시퀀스 약 200 토큰을 갖는 abstract-gen 데이터셋은 이전 연구에서 주로 다룬 짧은 입력을 뛰어넘는 도전 과제를 제기한다.
  • tfidf-emb 및 rwmd-rank 추출형 기준 모델이 경쟁적인 성능을 보이며, 단어 임베딩과 결합된 간단한 비지도 방법이 과학 텍스트에서 효과적일 수 있음을 시사한다.
  • 특히 서브워드 또는 문자 수준 인코더를 사용하는 신경 생성형 모델이 abstract-gen 데이터셋에서 추출형 방법을 능가함으로써, 장문 요약에 대해 생성 모델링의 필요성을 입증한다.
  • 연구 결과 과학 논문은 고품질의 다문장 훈련 쌍을 풍부하게 제공하며, 이는 장문의 요약 기준 설정에 매우 적합하다는 것을 보여준다.
  • 최신 신경망 모델이 전체 과학 논문을 효과적으로 요약할 수 있으며, ROUGE 점수 향상과 정성적 일관성 향상에서 측정 가능한 성과를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.