QUICK REVIEW

[논문 리뷰] SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents

Ramesh Nallapati, Feifei Zhai|arXiv (Cornell University)|2016. 11. 14.

Topic Modeling인용 수 749

한 줄 요약

SummaRuNNer는 추출적 문서 요약을 위한 이중 층 양방향 GRU 기반 시퀀스 분류기로, 최첨단 성능 또는 경쟁력을 제공하며 의사결정에 대한 해석 가능한 분석을 제공합니다. 또한 문장 수준 레이블이 없는 추상적 요약으로부터 학습하기 위한 추상적 훈련을 도입합니다.

ABSTRACT

We present SummaRuNNer, a Recurrent Neural Network (RNN) based sequence model for extractive summarization of documents and show that it achieves performance better than or comparable to state-of-the-art. Our model has the additional advantage of being very interpretable, since it allows visualization of its predictions broken up by abstract features such as information content, salience and novelty. Another novel contribution of our work is abstractive training of our extractive model that can train on human generated reference summaries alone, eliminating the need for sentence-level extractive labels.

연구 동기 및 목표

단일 문서의 문장 수준 추출 요약을 위한 신경망 기반의 엔드-투-엔드 모델을 개발한다.
대규모 데이터셋에서 최첨단 추출 방법보다 우수하거나 유사한 성능으로 향상시킨다.
내용(content), 중요도(salience), 참신성(novelty) 등 명시적 추상 특성에 의사결정을 귀속시켜 해석 가능성을 제공한다.
문장 수준의 추출 라벨이 없는 추상적 요약으로부터 학습 가능하도록 추상적 훈련을 제안한다.

제안 방법

두 층의 양방향 GRU RNN을 사용한 순차적 문장 수준 이진 분류로 작업을 모델링한다.
하위 단어 수준 GRU가 문장 내 표현을 포착하고, 상위 문장 수준 bi-GRU가 문서 수준 맥락을 위한 문장 표현을 인코딩한다.
문장 분류는 정보 내용(content), 중요도(salience), 참신성(novelty), 절대 위치 및 상대 위치 특징을 포함하는 로지스틱 계층을 사용한다.
요약 상태 s_j는 과거 문장 표현들의 누적 가중합으로, 예측 중 중복성과 관련성을 조정한다.
추출 라벨에 대한 음의 로그 우도(n lg)를 사용해 학습; 추상적 요약에서 추출 라벨을 유도하기 위해 탐욕적 Rouge 기반 최적화(추상적 훈련) 또는 실제 추출 라벨(추출적 훈련)을 사용.
추상적으로 학습될 때, 참조 요약 단어를 모델링하기 위한 디코더를 연결하고 요약 표현을 거쳐 역전파하여 추출 가능성을 영향을 준다.

실험 결과

연구 질문

RQ1단일 문서의 추출 요약을 엔드-투-엔드 방식으로 효과적으로 수행할 수 있는 순환 신경망 기반 시퀀스 분류기가 있는가?
RQ2내용, 중요도, 참신성 및 위치 특성을 도입하면 추출 요약의 품질이 기준선 대비 향상되는가?
RQ3추상적 훈련 신호를 사용해 문장 수준의 추출 라벨 없이도 추출 모델을 학습시킬 수 있으며 성능을 유지하는가?
RQ4SummaRuNNer가 대규모 CNN/Daily Mail 및 DUC 2002 데이터셋에서 최첨단 모델에 비해 어떤 성능을 보이는가?
RQ5명시적 특성 기반 의사결정 프로세스에서 얻을 수 있는 해석 가능성 인사이트는 무엇인가?

주요 결과

SummaRuNNer는 벤치마크에서 최첨단 추출 모델과 비교하여 더 좋거나 유사한 성능을 달성한다.
추출적 훈련은 Daily Mail 데이터셋에서 Rouge 지표의 제한된 길이에 대해 경쟁적 추상적 설정보다 통계적으로 유의미한 개선을 얻는다.
CNN/Daily Mail 코퍼스에서 SummaRuNNer는 전체 길이 Rouge 지표에서 추상적 인코더-디코더 모델보다 현저히 우수하게 성능이 좋다.
모델은 분류 점수의 내용(content), 중요도, 참신성, 위치 구성 요소로 의사결정을 해석 가능하게 시각화한다.
추상적 훈련은 문장 수준의 추출 라벨 필요성을 줄이지만, 대부분의 데이터 세트에서 추출적 학습 모델에 비해 뒤처지는 경향이 있다.
도메인 외 DUC 2002 데이터에서 SummaRuNNer는 유사한 모델과 동등한 수준이지만 일반적으로 그래프 기반 접근 방식(TGRAPH, URANK)보다 뒤쳐지며 심층 학습 기반 추출 방법의 도메인 강건성 문제가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.