Skip to main content
QUICK REVIEW

[论文解读] Keyword and Keyphrase Extraction Using Centrality Measures on Collocation Networks

Shibamouli Lahiri, Sagnik Ray Choudhury|arXiv (Cornell University)|Jan 25, 2014
Advanced Text Analysis Techniques参考文献 48被引用 52
一句话总结

本文提出了一种基于图的关键词和关键短语抽取方法,利用词与名词短语共现网络上的中心性度量,表明更简单的度量方法(如度数和强度)在无需外部语料库的情况下,性能优于或匹配PageRank。该方法在基准数据集上实现了最先进性能,优于tf-idf及其他无监督基线方法,在关键词抽取任务中表现出色,同时保持了计算效率和知识无关性。

ABSTRACT

Keyword and keyphrase extraction is an important problem in natural language processing, with applications ranging from summarization to semantic search to document clustering. Graph-based approaches to keyword and keyphrase extraction avoid the problem of acquiring a large in-domain training corpus by applying variants of PageRank algorithm on a network of words. Although graph-based approaches are knowledge-lean and easily adoptable in online systems, it remains largely open whether they can benefit from centrality measures other than PageRank. In this paper, we experiment with an array of centrality measures on word and noun phrase collocation networks, and analyze their performance on four benchmark datasets. Not only are there centrality measures that perform as well as or better than PageRank, but they are much simpler (e.g., degree, strength, and neighborhood size). Furthermore, centrality-based methods give results that are competitive with and, in some cases, better than two strong unsupervised baselines.

研究动机与目标

  • 探究除PageRank外的其他中心性度量是否能提升关键词和关键短语抽取性能。
  • 评估各种中心性度量在词与名词短语共现网络上的有效性。
  • 确定更简单的中心性度量(如度数、强度)是否能匹配或超越更复杂的度量(如PageRank)。
  • 将基于图的中心性方法与强大的无监督基线方法(如tf-idf)进行比较,且不依赖外部知识源。
  • 设计一种轻量级、知识无关的在线系统,实现实时关键词和关键短语抽取。

提出的方法

  • 使用滑动窗口在文本上构建词与名词短语共现网络,捕捉共现关系。
  • 在无权图和加权图上应用十一种中心性度量,包括度数、强度、PageRank、接近度、枢纽/权威分值以及邻域大小。
  • 使用基于共现频率的加权有向图来建模共现强度。
  • 根据中心性得分对术语和短语进行排序,并使用标准的精确率、召回率和F1值指标在基准数据集上进行评估。
  • 采用基于阈值的选择方法(5%至100%,每5%为一档)生成排序列表,以与tf-idf及其他基线方法进行比较。
  • 结合多个数据集的黄金标准标注,确保在不同领域中评估的稳健性。

实验结果

研究问题

  • RQ1除PageRank外的中心性度量是否能在关键词和关键短语抽取中实现相当或更优的性能?
  • RQ2更简单的中心性度量(如度数和强度)是否优于更复杂的度量(如中间度或核心度)?
  • RQ3基于中心性的方法在精确率、召回率和F1值方面与强大的tf-idf基线相比表现如何?
  • RQ4何种类型的共现网络(词 vs. 名词短语)对不同中心性度量的性能表现更优?
  • RQ5无需外部语料库的轻量级、基于图的方法是否能超越现有无监督基线方法?

主要发现

  • 度数、强度及邻域大小(阶数1)的变体在全部四个基准数据集上的表现与PageRank相当或更优。
  • 在11个黄金标准标注中,度数和强度中心性度量在9个中优于tf-idf,且在NUS和ICSI数据集上F1值更高。
  • PageRank的表现与度数和强度相近或略差,表明更简单的度量已足够且更高效。
  • 结构多样性指数和聚类系数的变体是表现最差的度量,表明其在此上下文中的效用有限。
  • 基于中心性的方法在ICSI和NUS数据集上优于TextRank、SingleRank、ExpandRank和KeyCluster,展现出显著的竞争优势。
  • 该方法在无需外部语料库的情况下,实现了高精确率和高召回率,证明其作为tf-idf的知识无关替代方案的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。