QUICK REVIEW

[論文レビュー] Variations of the Similarity Function of TextRank for Automated Summarization

Federico Barrios, Federico López|arXiv (Cornell University)|Feb 11, 2016

Topic Modeling参考文献 23被引用数 114

ひとこと要約

本論文は TextRank の文の類似度を計る代替指標を提案し、BM25／BM25+ に基づくエッジ重み付けが DUC2002 データセットにおける ROUGE スコアを改善することを示す。BM25 が報告された中で最高の改善を達成している。

ABSTRACT

This article presents new alternatives to the similarity function for the TextRank algorithm for automatic summarization of texts. We describe the generalities of the algorithm and the different functions we propose. Some of these variants achieve a significative improvement using the same metrics and dataset as the original publication.

研究の動機と目的

Extractive summarization のために、文の類似性の計算方法を修正して TextRank を強化する。
標準ベンチマーク（DUC 2002）で代替類似度関数を評価する。
追加の監視や訓練なしで ROUGE 指標を改善する変種を特定する。
提案変種の計算効率を評価する。

提案手法

文を文の類似度に基づくエッジ重み付けを用いたグラフとして表現する。
複数の類似度変種を提案・実装する：Longest Common Substring、Cosine TF-IDF、BM25、BM25+。
低頻度語を安定化させるために BM25 変種に補正的な IDF 形式を適用する。
DUC 2002 コーパスで ROUGE-1、ROUGE-2、ROUGE-SU4 を用いて評価する。
オリジナルの TextRank ベースラインと比較し、改善率を報告する。
リファレンス実装を提供し、Gensim への貢献を行う。

実験結果

リサーチクエスチョン

RQ1TextRank のエッジ重み付けにおける代替類似度測度は、抽出型要約の品質を改善するか。
RQ2どの類似度変種が DUC 2002 データセットで最も ROUGE の向上をもたらすか。
RQ3BM25 ベースの変種は、伝統的な TF-IDF やオーバーラップベースの測度と比較してどうか。
RQ4提案された変種の品質向上と計算時間のトレードオフはどうか。

主な発見

Method	ROUGE-1	ROUGE-2	ROUGE-SU4	Improvement
BM25 (ε = 0.25)	0.4042	0.1831	0.2018	2.92%
BM25+ (ε = 0.25)	0.404	0.1818	0.2008	2.60%
Cosine TF-IDF	0.4108	0.177	0.1984	2.54%
BM25+ (IDF = log(N/Ni))	0.4022	0.1805	0.1997	2.05%
BM25 (IDF = log(N/Ni))	0.4012	0.1808	0.1998	1.97%
Longest Common Substring	0.402	0.1783	0.1971	1.40%
BM25+ (ε = 0)	0.3992	0.1803	0.1976	1.36%
BM25 (ε = 0)	0.3991	0.1778	0.1966	0.89%
TextRank	0.3983	0.1762	0.1948	–
BM25	0.3916	0.1725	0.1906	-1.57%
BM25+	0.3903	0.1711	0.1894	-2.07%
DUC Baseline	0.39	0.1689	0.186	-2.84%

BM25 および特定の補正式を用いた BM25+ が最も高い ROUGE の向上を示し、元の TextRank より 2.92% 向上した。
Cosine TF-IDF も元の TextRank より 2.54% の顕著な改善をもたらす。
Longest Common Substring は TextRank より 1.40% の小幅な改善を提供。
BM25 および BM25+ の変種は一般に他の変種やベースラインより ROUGE 指標で優れる。
最も良好な設定（ε=0.25 の BM25）は、元の TextRank よりも速く、DUC 567 文書コーパスの処理も行う（元の時間の 84%）。
著者らはリファレンス Python 実装を提供し、BM25-TextRank を Gensim に貢献した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。