Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Extractive Summarization with Side Information

Shashi Narayan, Nikos Papasarantopoulos|arXiv (Cornell University)|2017. 04. 14.
Topic Modeling참고 문헌 33인용 수 68
한 줄 요약

이 논문은 SideNet을 제시하는데, 사이드 정보(제목과 이미지 자막)를 계층 인코더와 사이드 정보 주의 추출기를 통해 이용하는 신경 추출적 요약 모델로, CNN 데이터의 단일 문서 요약 품질을 향상시킨다.

ABSTRACT

Most extractive summarization methods focus on the main body of the document from which sentences need to be extracted. However, the gist of the document may lie in side information, such as the title and image captions which are often available for newswire articles. We propose to explore side information in the context of single-document extractive summarization. We develop a framework for single-document summarization composed of a hierarchical document encoder and an attention-based extractor with attention over side information. We evaluate our model on a large scale news dataset. We show that extractive summarization with side information consistently outperforms its counterpart that does not use any side information, in terms of both informativeness and fluency.

연구 동기 및 목표

  • 뉴스 기사에서 흔히 이용 가능한 사이드 정보를 활용해 추출적 요약의 개선을 모티브로 한다.
  • 사이드 정보를 문장 추출에 통합하는 신경 아키텍처를 개발한다.
  • 제안 모델을 대규모 CNN 기반 데이터셋에서 평가하고 기저 모델과 비교한다.
  • 자동 평가와 인간 평가를 통해 사이드 정보가 정보량과 유창성을 개선함을 보여준다.
  • 다양한 사이드 정보 유형의 상대적 기여도(제목, 자막, 첫 문장)를 조사한다.

제안 방법

  • CNN 기반 문장 인코더와 RNN 문서 인코더를 갖춘 계층적 인코더를 제안한다.
  • 사이드 정보를 이용한 주의(attention)를 가진 LSTM을 사용하는 문장 추출기를 도입한다.
  • 사이드 정보를 자막/제목 임베딩의 시퀀스로 표현하고 문장에 레이블을 지시할 때 이들에 주의를 기울인다.
  • 문장 관련 레이블의 가능성을 최대화하는 지도 학습 objective로 학습한다.
  • ROUGE 기반 평가와 인간 판단을 사용해 정보량과 유창성을 평가한다.

실험 결과

연구 질문

  • RQ1사이드 정보(제목과 이미지 자막)를 도입하면 사이드 정보가 없는 모델보다 추출적 요약 품질이 향상되는가?
  • RQ2어떤 유형의 사이드 정보가 성능에 가장 기여하는가(제목 대 자막 대 첫 문장 대 조합)?
  • RQ3SideNet은 CNN 기반 단일 문서 요약에서 강력한 기저모델(Lead, PointerNet)과 어떻게 비교되는가?
  • RQ4자동 ROUGE 개선이 인간 판단의 정보량과 유창성과 일치하는가?

주요 결과

모델R1R2R3R4RL평균
Lead49.218.99.86.043.825.5
PointerNet53.319.710.46.447.227.4
SideNet+title55.021.611.77.548.928.9
SideNet+caption55.321.311.47.249.028.8
SideNet+fs54.821.111.37.248.628.6
title+caption55.421.811.87.549.229.2
title+fs55.121.611.67.448.928.9
caption+fs55.321.511.57.349.028.9
title+caption+fs55.421.511.67.449.129.0
  • 사이드 정보는 사이드 정보가 없는 모델보다 ROUGE 점수를 일관되게 향상시킨다.
  • 최적의 제거는 제목과 이미지 자막을 모두 사용하는 것으로 단일 소스 사이드 정보보다 우수하다.
  • 테스트 데이터에서 SideNet은 Lead와 PointerNet보다 전체 길이 요약에서 ROUGE-1, ROUGE-2, ROUGE-L 점수가 더 높다.
  • 고정 길이 요약의 경우 매우 짧은 바이트 제한에서 Lead/PointerNet에 의해 뒤처질 수 있지만 더 긴 출력에서 뛰어나다.
  • 인간 평가에서 SideNet은 정보량과 유창성에서 인간에 가장 가깝게 평가되는 경우가 많아 비사이드 정보 기저 모델보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.