Skip to main content
QUICK REVIEW

[논문 리뷰] BanditSum: Extractive Summarization as a Contextual Bandit

Yue Dong, Yikang Shen|arXiv (Cornell University)|2018. 09. 25.
Topic Modeling참고 문헌 30인용 수 24
한 줄 요약

BanditSum는 추출적 요약을 위한 맥락 기반 밴딧 강화 학습 프레임워크를 제안하며, 히우리스틱 추출 레이블을 회피하고 ROUGE 점수를 직접 최적화한다. 이는 이중 방향 RNN을 사용해 문장 유사도를 할당하고, 교체 없이 요약문을 샘플링함으로써, 특히 문서의 끝부분에 열쇠 문장이 나타나는 경우, 순차적 레이블링 기반 모델보다 훨씬 적은 학습 업데이트로 최신의 ROUGE 점수를 달성한다.

ABSTRACT

In this work, we propose a novel method for training neural networks to perform single-document extractive summarization without heuristically-generated extractive labels. We call our approach BanditSum as it treats extractive summarization as a contextual bandit (CB) problem, where the model receives a document to summarize (the context), and chooses a sequence of sentences to include in the summary (the action). A policy gradient reinforcement learning algorithm is used to train the model to select sequences of sentences that maximize ROUGE score. We perform a series of experiments demonstrating that BanditSum is able to achieve ROUGE scores that are better than or comparable to the state-of-the-art for extractive summarization, and converges using significantly fewer update steps than competing approaches. In addition, we show empirically that BanditSum performs significantly better than competing approaches when good summary sentences appear late in the source document.

연구 동기 및 목표

  • 추출적 요약에서 순차적 이진 레이블링의 한계, 즉 노출 편향과 히우리스틱 추출 레이블 의존성 문제를 해결하기 위해.
  • 초기 레이블 기반 사전 학습이 필요 없도록 하기 위해 요약을 맥락 기반 밴딧 문제로 재정의하기 위해.
  • 고품질 요약 문장이 늦게 나타나는 문서에서 모델 성능을 향상시키기 위해.
  • 큰 행동 공간을 가진 전면적 강화 학습에 비해 탐색 공간을 줄이고 학습 속도를 높이기 위해.
  • 문서의 전반적 맥락에 따라 문장 유사도가 결정되는 종단간 학습을 가능하게 하기 위해.

제안 방법

  • 모델이 전체 문서 맥락을 기반으로 [0,1] 범위의 문장 유사도 점수를 출력하는 맥락 기반 밴딧 문제로 추출적 요약을 공식화한다.
  • 이중 방향 RNN 인코더를 사용해 전반적인 종속성을 반영하는 문장 수준의 유사도 점수를 생성한다.
  • 유사도에 기반해 유사도 기반으로 요약 문장을 선택하는 교체 없음 샘플링 전략을 적용하여, 앞선 문장들에 대한 순서 편향을 방지한다.
  • 정책 기반 강화 학습을 사용해 생성된 요약과 기준 요약 간의 ROUGE F1 점수를 최대화하도록 모델을 최적화한다.
  • 추출 레이블 없이 약간의 개재 요약만을 사용해 종단간으로 학습하며, 히우리스틱 레이블 의존성을 제거한다.
  • ROUGE 점수를 직접 최적화함으로써 최종 평가 지표를 직접 최적화할 수 있도록 하는 새로운 학습 목표를 도입한다.

실험 결과

연구 질문

  • RQ1히우리스틱 레이블이 필요 없이 순차적 이진 레이블링보다 맥락 기반 밴딧 프레임워크가 추출적 요약에서 더 나은 성능을 내는가?
  • RQ2제안된 방법은 기존 강화 학습 기반 모델보다 수렴 속도가 더 빠르고 더 높은 ROUGE 점수를 달성하는가?
  • RQ3핵심 요약 문장이 문서의 끝부분에 나타나는 경우, BanditSum의 성능은 앞서서 문장을 선호하는 모델보다 어떻게 다른가?
  • RQ4행동 선택에서의 노출 편향과 순차적 종속성 제거가 요약 품질 향상에 얼마나 기여하는가?
  • RQ5히우리스틱 추출 레이블 기반 사전 학습 없이도 모델이 최신 성능을 달성할 수 있는가?

주요 결과

  • BanditSum는 어떤 추출 레이블도 사용하지 않고 표준 추출적 요약 벤치마크에서 최신 또는 유사한 ROUGE 점수를 달성한다.
  • 경쟁 모델 대비 유의미하게 더 빠른 수렴 속도를 보이며, 훨씬 적은 업데이트 단계로도 학습이 가능함으로써 샘플 효율성이 향상됨을 입증한다.
  • 핵심 문장이 늦게 나타나는 데이터셋에서 BanditSum는 순차적 강화 학습 모델(RNES 및 RNES3)보다 유의미한 성능 향상을 보이며, 늦게 나타나는 중요한 내용을 더 잘 처리함을 보여준다.
  • 인간 평가 결과 BanditSum 요약문은 경쟁 모델 대비 더 적은 중복성과 더 높은 종합 품질 평가를 받았다.
  • 좋은 문장이 빨리 나타나는 경우에도 성능 저하 없이 양면적인 상황에서 유연하게 성능을 유지함을 보였다.
  • 제거 실험 결과, 기존 모델 대비 성능 향상의 주요 원인은 늦게 나타나는 요약에 적합한 문장들을 더 잘 다루기 때문임을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.