QUICK REVIEW

[논문 리뷰] Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting

Yen-Chun Chen, Mohit Bansal|arXiv (Cornell University)|2018. 05. 28.

Topic Modeling참고 문헌 40인용 수 94

한 줄 요약

이 논문은 강화 학습 추출기를 사용해 먼저 핵심 문장을 선택하고, 그 문장을 추상적으로 재작성하는 하이브리드 추출-요약 모델을 제시한다. CNN/Daily Mail에서 ROUGE/METEOR의 최첨단 성능을 달성하고, 병렬 문장 디코딩으로 추론 속도를 높인다.

ABSTRACT

Inspired by how humans summarize long documents, we propose an accurate and fast summarization model that first selects salient sentences and then rewrites them abstractively (i.e., compresses and paraphrases) to generate a concise overall summary. We use a novel sentence-level policy gradient method to bridge the non-differentiable computation between these two neural networks in a hierarchical way, while maintaining language fluency. Empirically, we achieve the new state-of-the-art on all metrics (including human evaluation) on the CNN/Daily Mail dataset, as well as significantly higher abstractiveness scores. Moreover, by first operating at the sentence-level and then the word-level, we enable parallel decoding of our neural generative model that results in substantially faster (10-20x) inference speed as well as 4x faster training convergence than previous long-paragraph encoder-decoder models. We also demonstrate the generalization of our model on the test-only DUC-2002 dataset, where we achieve higher scores than a state-of-the-art model.

연구 동기 및 목표

추출적 중요도와 추상적 재작성의 결합으로 빠르고 정확한 장문 요약을 달성한다.
추출기와 추상기를 연결하는 문장 수준의 RL 브리지를 개발하되 유창성을 해치지 않는다.
CNN/Daily Mail에서의 최첨단 성능 달성 및 DUC-2002로의 일반화.
훈련과 추론의 속도를 대폭 높이기 위한 병렬 디코딩 활성화

제안 방법

두 모듈 구조: 핵심 문장을 선택하는 추출기와 이를 재작성하는 추상기가 있다.
맥락을 위한 시점적 합성 및 양방향 LSTM을 통한 계층적 문장 표현
포인터 네트워크와 이중 점진적 주의 메커니즘으로 문장 선택을 하고, ROUGE 기반 보상으로 정책 그래디언트(A2C)로 학습
복사 메커니즘을 갖춘 인코더-정렬자-디코더로 간결하고 유창한 재작성 생성
추출기의 ML 프리트레이닝(프록시 중요도 라벨)과 추상기의 문장 수준 쌍으로의 프리트레이닝; 추출기를 끝까지 미세조정하는 RL(A2C) while 추상기의 언어 모델은 고정
삼중그램 회피 및 다양성 디코딩을 통한 문장 간 중복 감소의 선택적 재랭킹

실험 결과

연구 질문

RQ1문장 수준의 RL 추출기가 추상적 재작성에 적합한 핵심 문장을 효과적으로 식별할 수 있을까?
RQ2흐름을 보존하면서 추출-먼저 재작성하는 거친-정밀 접근이 엔드-투-엔드 장문 인코더에 비해 품질, 속도, 유창성을 개선하는가?
RQ3RL 유도 추출과 복사 가능 추상기를 결합할 때 추상적 품질과 참신성의 향상은 어느 정도인가?
RQ4모델이 DUC-2002와 같은 도메인 외 데이터에 얼마나 잘 일반화하는가?

주요 결과

CNN/Daily Mail에서 추출적 및 추상적 설정 모두에서 새로운 ROUGE 및 METEOR 최첨단 달성.
병렬 문장 수준 디코딩이 이끄는 RL 가이드 추출기로 이전의 긴 인코더 모델보다 추론이 10-20배, 학습 수렴은 최대 4배 빠름.
추상 모델은 강력한 베이스라인보다 훨씬 더 많은 새로운 N-그램을 생성하여 실제 추상적 재작성임을 시사.
테스트 전용 DUC-2002 데이터세트에서 최첨단 모델보다 우수한 일반화 성능.
인간 평가에서 강력한 선행 모델에 비해 관련성 및 가독성이 개선됨.
선택적 재랭킹으로 문장 간 중복 감소를 추가로 달성하며 ROUGE에서 측정 가능한 이득이 있음

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.