Skip to main content
QUICK REVIEW

[논문 리뷰] A Sentence Compression Based Framework to Query-Focused Multi-Document Summarization

Lu Wang, Hema Raghavan|arXiv (Cornell University)|2016. 06. 24.
Natural Language Processing Techniques참고 문헌 42인용 수 99
한 줄 요약

논문은 질의 중심 다중 문서 요약을 위한 문장 압축 기반 프레임워크를 제시하며, 규칙 기반, 시퀀스 기반, 트리 기반 압축 방법과 빔 서처 디코더 및 과제별 다중 점수 평가자를 도입하여 DUC 데이터셋에서 추출 기반을 능가한다.

ABSTRACT

We consider the problem of using sentence compression techniques to facilitate query-focused multi-document summarization. We present a sentence-compression-based framework for the task, and design a series of learning-based compression models built on parse trees. An innovative beam search decoder is proposed to efficiently find highly probable compressions. Under this framework, we show how to integrate various indicative metrics such as linguistic motivation and query relevance into the compression process by deriving a novel formulation of a compression scoring function. Our best model achieves statistically significant improvement over the state-of-the-art systems on several metrics (e.g. 8.0% and 5.4% improvements in ROUGE-2 respectively) for the DUC 2006 and 2007 summarization task.

연구 동기 및 목표

  • 질의 중심 다중 문서 요약의 품질을 향상시키기 위해 문장 압축의 사용을 동기화한다.
  • 규칙 기반, 시퀀스 기반, 트리 기반 압축 모델을 개발하여 문법성과 질의 관련 내용을 보존한다.
  • 언어학적 신호, 관련성, 중복성, 언어 품질 신호를 통합된 압축 점수 프레임워크로 통합한다.
  • DUC 2006 및 2007에서 방법들을 평가하여 최첨단 추출 시스템에 비해 향상을 보인다.

제안 방법

  • 세 단계 프레임워크를 제안한다: 문장 순위 매기기, 문장 압축, 후처리.
  • 쿼리 관련성, 콘텐츠 중요도, 언어적 단서를 포함한 특징으로 학습-대-랭크 방법(LambdaMART)을 사용하여 문장을 랭킹한다.
  • 세 가지 압축 패러다임을 구현한다: 규칙 기반, 시퀀스 기반(CR F with BIO labeling), 트리 기반(parse-tree constituent labeling)과 빔 서처.
  • Basic compression score에 query relevance, content importance (SumBasic), language-model likelihood, cross-sentence redundancy를 결합한 다중 점수 평가자를 도입하여 압축을 이끈다.
  • 맥락 인식 및 헤드 구동 변형으로 빔 서치를 강화하여 예측기의 유용성과 문법성을 개선한다.
  • 압축 산출물의 유창성을 유지하기 위해 Gigaword language-model scoring 및 구문 기반 언어 모델로 평가한다.

실험 결과

연구 질문

  • RQ1학습 기반 문장 압축이 추출 만으로 얻는 것보다 질의 중심 다중 문서 요약의 품질을 향상시킬 수 있는가?
  • RQ2규칙 기반, 시퀀스 기반, 트리 기반 압축 접근법은 질의 중심 MDS에 대해 간결하면서도 정보가 풍부한 요약을 생산하는 데 어떻게 기여하는가?
  • RQ3압축 점수 함수에 질의 관련성, 중복 최소화, 언어 품질을 포함시키면 측정 가능한 이득이 나타나는가?
  • RQ4맥락 인식 및 헤드 구동 빔 서치 전략이 압축 성능 및 요약 품질에 미치는 영향은 어떠한가?

주요 결과

  • 모든 압축 기반 모델은 ROUGE 기반 지표에서 DUC 2006의 추출 시스템 중 최고 성능보다 통계적으로 유의한 향상을 달성한다.
  • 가장 우수한 모델(Head-driven beam search with Multi-scorer)은 DUC 2006 및 2007에 대해 보고된 시스템들 중 가장 높은 ROUGE-2 (R-2) 및 ROUGE-SU4 (R-SU4) 점수를 달성하며, 추출 베이스라인 대비 현저한 개선을 보인다.
  • 해당 접근 방식은 중복성을 줄이고 이전 시스템에 비해 Pyramid 콘텐츠 포착을 높이지만, 구문 분석 오류로 인해 가끔 문법적 문제가 발생한다.
  • 맥락 인식 및 헤드 구동 트리 기반 압축은 다른 압축 방법들에 비해 정밀도에서 우수하고 재현율도 유지하여, 문법적 신뢰성을 가진 콘텐츠 선정을 더 잘 수행한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.