Skip to main content
QUICK REVIEW

[논문 리뷰] Variations of the Similarity Function of TextRank for Automated Summarization

Federico Barrios, Federico López|arXiv (Cornell University)|2016. 02. 11.
Topic Modeling참고 문헌 23인용 수 114
한 줄 요약

논문은 TextRank를 위한 대체 문장-유사도 측정 방법을 제안하고, BM25/BM25+ 기반의 간선 가중치가 DUC2002 데이터셋에서 ROUGE 점수를 향상시키며, BM25가 보고된 최상의 증가를 달성한다.

ABSTRACT

This article presents new alternatives to the similarity function for the TextRank algorithm for automatic summarization of texts. We describe the generalities of the algorithm and the different functions we propose. Some of these variants achieve a significative improvement using the same metrics and dataset as the original publication.

연구 동기 및 목표

  • 추출적 요약을 위해 문장 간 유사도 계산 방식을 수정하여 TextRank를 강화한다.
  • 표준 벤치마크(DUC 2002)에서 대안 유사도 함수를 평가한다.
  • 추가 감독/학습 없이 ROUGE 메트릭을 개선하는 변형을 식별한다.
  • 제안 변형의 계산 효율성을 평가한다.

제안 방법

  • 문서를 문장 그래프로 표현하고 간선 가중치를 문장 간 유사도에서 도출한다.
  • 여러 유사도 변형을 제안하고 구현한다: Longest Common Substring, Cosine TF-IDF, BM25, 및 BM25+.
  • BM25 변형을 안정화하기 위해 보정된 IDF 공식을 적용한다.
  • DUC 2002 코퍼스에서 ROUGE-1, ROUGE-2, ROUGE-SU4를 사용해 평가한다.
  • 원래 TextRank 기준과의 비교를 통해 퍼센트 개선을 보고한다.
  • 참고 파이썬 구현을 제공하고 Gensim에 BM25-TextRank를 기여한다.

실험 결과

연구 질문

  • RQ1TextRank의 간선 가중치에 대한 대안 유사도 측정이 추출적 요약의 품질을 향상시키는가?
  • RQ2어떤 유사도 변형이 DUC 2002 데이터셋에서 가장 큰 ROUGE 향상을 보이는가?
  • RQ3BM25 기반 변형은 TextRank의 전통적 TF-IDF 또는 중첩 기반 측정과 비교해 어떤 성능 차이가 있는가?
  • RQ4제안 변형의 품질 향상과 계산 시간 간의 트레이드오프는 무엇인가?

주요 결과

MethodROUGE-1ROUGE-2ROUGE-SU4Improvement
BM25 (ε = 0.25)0.40420.18310.20182.92%
BM25+ (ε = 0.25)0.4040.18180.20082.60%
Cosine TF-IDF0.41080.1770.19842.54%
BM25+ (IDF = log(N/Ni))0.40220.18050.19972.05%
BM25 (IDF = log(N/Ni))0.40120.18080.19981.97%
Longest Common Substring0.4020.17830.19711.40%
BM25+ (ε = 0)0.39920.18030.19761.36%
BM25 (ε = 0)0.39910.17780.19660.89%
TextRank0.39830.17620.1948
BM250.39160.17250.1906-1.57%
BM25+0.39030.17110.1894-2.07%
DUC Baseline0.390.16890.186-2.84%
  • 특정 보정식과 함께 BM25 및 BM25+가 가장 높은 ROUGE 향상을 보여 원래 TextRank 대비 2.92% 향상시킨다.
  • 코사인 TF-IDF도 원래 TextRank 대비 주목할 만한 2.54% 향상을 보인다.
  • Longest Common Substring은 TextRank 대비 미묘하게 1.40% 향상을 제공한다.
  • BM25 및 BM25+ 변형은 일반적으로 ROUGE 지표에서 여러 다른 변형 및 베이스라인을 능가한다.
  • 최고 성능 설정(BM25, ε=0.25)은 원래 TextRank보다 빠르게 DUC 567-문서 코퍼스를 처리한다(원래 시간의 84%).
  • 저자들은 참조 Python 구현을 제공하고 BM25-TextRank를 Gensim에 기여했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.