Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-document abstractive summarization using ILP based multi-sentence compression

Siddhartha Banerjee, Prasenjit Mitra|arXiv (Cornell University)|2016. 09. 22.
Topic Modeling참고 문헌 20인용 수 129
한 줄 요약

저자들은 가장 중요한 문서를 중심으로 문장을 클러스터링하고, 각 클러스터별로 단어 그래프를 구축해 K개의 최단 경로를 생성하며, 정보를 내용과 언어 품질을 최적화하는 ILP를 사용해 경로를 선택하여 DUC 데이터셋에서 ROUGE 성능이 강하다.

ABSTRACT

Abstractive summarization is an ideal form of summarization since it can synthesize information from multiple documents to create concise informative summaries. In this work, we aim at developing an abstractive summarizer. First, our proposed approach identifies the most important document in the multi-document set. The sentences in the most important document are aligned to sentences in other documents to generate clusters of similar sentences. Second, we generate K-shortest paths from the sentences in each cluster using a word-graph structure. Finally, we select sentences from the set of shortest paths generated from all the clusters employing a novel integer linear programming (ILP) model with the objective of maximizing information content and readability of the final summary. Our ILP model represents the shortest paths as binary variables and considers the length of the path, information score and linguistic quality score in the objective function. Experimental results on the DUC 2004 and 2005 multi-document summarization datasets show that our proposed approach outperforms all the baselines and state-of-the-art extractive summarizers as measured by the ROUGE scores. Our method also outperforms a recent abstractive summarization technique. In manual evaluation, our approach also achieves promising results on informativeness and readability.

연구 동기 및 목표

  • 관련 문서들 중에서 가장 정보가 많은 문서를 식별한다.
  • 선택된 문서를 중심으로 문서 간 문장을 클러스터링하여 공통 정보를 포착한다.
  • 각 클러스터에서 단어 그래프를 이용해 간결하고 유익하며 읽기 쉬운 추상적 문장을 생성한다.
  • 정보성 및 언어적 품질을 최대화하고 중복성을 제어하는 ILP를 해결해 최종 문장들을 선택한다.
  • 기준선 및 기존의 추상적 방법들에 비해 더 높은 ROUGE 점수와 인간 가독성을 입증한다.]
  • method:[
  • Compute document importance to pick a most important document using LexRank, Pairwise Cosine Similarity, or Overall Document Collection Similarity.
  • 다른 문서들로부터의 문장을 중요 문서와의 코사인 유사도에 기반해 중요한 문서를 선택하기 위해 LexRank, 쌍별 코사인 유사도, 또는 전체 문서 모음의 유사도를 사용한다.
  • Assign sentences from other documents to clusters based on cosine similarity to sentences in the important document.
  • 다른 문서의 문장을 중요한 문서의 문장과의 코사인 유사도에 기반해 클러스터에 할당한다.
  • From each cluster, construct a word-graph by aligning sentences and extract K shortest paths.
  • 각 클러스터를 구성하는 문장을 맞춰 정렬해 단어 그래프를 구성하고 K개의 최단 경로를 추출한다.
  • Evaluate each path with Informativeness via TextRank and Linguistic Quality via a 3-gram language model."
  • 각 경로를 TextRank를 통한 정보성(Informativeness)과 3-그램 언어 모델을 통한 언어적 품질(Linguistic Quality)로 평가한다."
  • Solve an ILP that selects at most one path per cluster and prevents cross-cluster redundancy, maximizing a product of informativeness and linguistic quality divided by path length.

제안 방법

  • 각 클러스터에서 하나의 경로를 초과하지 않게 선택하고 클러스터 간 중복을 방지하는 ILP를 해결하여 경로 길이로 나눈 정보성 및 언어적 품질의 곱을 최대화한다.

실험 결과

연구 질문

  • RQ1다양한 문서에 걸친 유사한 문장들의 클러스터로부터 추상적 요약을 효과적으로 생성할 수 있는가?
  • RQ2정보가 풍부하고 언어적으로 잘 구성된 짧은 경로를 ILP 기반으로 선택하는 것이 추출적 방법 및 기존의 추상적 방법보다 우수한 요약을 만들어내는가?
  • RQ3중심적(가장 중요한) 문서를 식별하는 것이 다문서 클러스터링과 요약 품질에 어떤 영향을 미치는가?
  • RQ4다양한 문서 중요도 측정 방법과 클러스터 순서 전략이 최종 ROUGE 성능에 어떤 영향을 미치는가?

주요 결과

  • ILPSumm 접근법은 ROUGE 지표에서 DUC 2004 및 2005의 기준선 및 최첨단 추출 시스템을 능가한다.
  • ILPSumm은 ROUGE-2, ROUGE-L, ROUGE-SU4에서 최근의 추상적 방법MSC를 능가한다.
  • 수동 평가에서 ILPSumm은 MSC 및 DPP 기준선에 비해 더 높은 정보성 및 경쟁력 있는 언어적 품질을 달성한다.
  • DocSetSim을 중요도 척도로 하고 MO 클러스터링을 사용한 구성이 테스트된 구성들 중에서 가장 좋은 ROUGE 결과를 제공한다.
  • 언어 모델 기반의 언어적 품질 점수와 정보 점수를 함께 사용하면 더 읽기 쉽고 정보가 풍부한 요약을 얻을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.