QUICK REVIEW

[논문 리뷰] Data-driven Summarization of Scientific Articles

Nikola I. Nikolov, Michael Pfeiffer|arXiv (Cornell University)|2018. 04. 24.

Topic Modeling참고 문헌 30인용 수 31

한 줄 요약

이 논문은 제목과 초록을 다문장 요약으로 삼아 과학 논문을 데이터 기반 텍스트 요약을 위한 대규모 고품질 기준으로 활용함으로써, 장문의 요약 모델을 훈련시키는 데 적합한 자료로 활용하고자 한다. 제목-초록(500만 페퍼)과 초록-본문(90만 페퍼)이라는 두 가지 새로운 데이터셋을 제안하고, 추출형 및 생성형 신경망 모델을 평가하여 과학 논문이 다양한 아키텍처에서 강력한 성능을 보이는 장문의 요약 모델 훈련에 매우 적합하다는 것을 입증한다.

ABSTRACT

Data-driven approaches to sequence-to-sequence modelling have been successfully applied to short text summarization of news articles. Such models are typically trained on input-summary pairs consisting of only a single or a few sentences, partially due to limited availability of multi-sentence training data. Here, we propose to use scientific articles as a new milestone for text summarization: large-scale training data come almost for free with two types of high-quality summaries at different levels - the title and the abstract. We generate two novel multi-sentence summarization datasets from scientific articles and test the suitability of a wide range of existing extractive and abstractive neural network-based summarization approaches. Our analysis demonstrates that scientific papers are suitable for data-driven text summarization. Our results could serve as valuable benchmarks for scaling sequence-to-sequence models to very long sequences.

연구 동기 및 목표

장문의 텍스트 요약을 위한 대규모 고품질 훈련 데이터 부족 문제를 과학 논문을 활용하여 해결하고자 한다.
제목과 초록을 요약 지도로 사용하여 과학 요약을 위한 두 가지 새로운 대규모 데이터셋을 구축하고자 한다.
완전한 과학 논문 본문을 입력으로 하여 초록을 요약으로 사용할 때 기존의 추출형 및 생성형 신경망 모델의 성능을 평가하고자 한다.
과학 텍스트에서 장입력 및 장출력 시퀀스를 다루는 시퀀스-투-시퀀스 모델의 확장성을 확립하고자 한다.

제안 방법

500만 건의 생물의학 논문에서 제목을 초록의 요약으로 삼아 title-gen 데이터셋을 구축한다.
90만 건의 생물의학 논문에서 초록을 전체 논문 본문의 요약으로 삼아 abstract-gen 데이터셋을 구축한다.
비지도 추출형 기준 모델로 tfidf-emb를 사용하며, TF-IDF 가중치를 적용한 단어 임베딩과 문서 중심점과의 코사인 유사도를 기반으로 문장을 순위 매긴다.
rwmd-rank를 사용하여 유사도를 계산하며, 리럭시드 워드 무버즈 디스턴스(Relaxed Word Mover’s Distance)를 활용하고 문장 순위 매기기 위해 LexRank 중심성 기법을 적용한다.
단어, 서브워드, 문자 수준 표현을 사용하는 순환형 및 컨volutional 인코더-디코더를 포함한 다양한 신경 시퀀스-투-시퀀스 모델을 적용한다.
두 데이터셋에서 다양한 모델 아키텍처를 대상으로 정량적 및 정성적 평가를 수행하여 요약 품질과 확장성 여부를 분석한다.

실험 결과

연구 질문

RQ1과학 논문은 데이터 기반 텍스트 요약을 위한 대규모 고품질 훈련 데이터로 유용한 자료가 될 수 있는가?
RQ2초록을 요약으로 삼아 전체 과학 논문 본문을 입력으로 사용할 때 추출형 및 생성형 신경망 모델의 성능은 어떠한가?
RQ3기존의 시퀀스-투-시퀀스 모델은 과학 텍스트에서 장입력 및 장출력 시퀀스를 다룰 수 있도록 어느 정도 확장될 수 있는가?
RQ4단어, 서브워드, 문자 수준의 임베딩 및 인코딩 전략은 장문의 과학 텍스트 요약 성능에 어떤 영향을 미치는가?

주요 결과

입력 시퀀스 평균 1,000 토큰 이상, 출력 시퀀스 약 200 토큰을 갖는 abstract-gen 데이터셋은 이전 연구에서 주로 다룬 짧은 입력을 뛰어넘는 도전 과제를 제기한다.
tfidf-emb 및 rwmd-rank 추출형 기준 모델이 경쟁적인 성능을 보이며, 단어 임베딩과 결합된 간단한 비지도 방법이 과학 텍스트에서 효과적일 수 있음을 시사한다.
특히 서브워드 또는 문자 수준 인코더를 사용하는 신경 생성형 모델이 abstract-gen 데이터셋에서 추출형 방법을 능가함으로써, 장문 요약에 대해 생성 모델링의 필요성을 입증한다.
연구 결과 과학 논문은 고품질의 다문장 훈련 쌍을 풍부하게 제공하며, 이는 장문의 요약 기준 설정에 매우 적합하다는 것을 보여준다.
최신 신경망 모델이 전체 과학 논문을 효과적으로 요약할 수 있으며, ROUGE 점수 향상과 정성적 일관성 향상에서 측정 가능한 성과를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.