[论文解读] Semantic Analysis of Tag Similarity Measures in Collaborative Tagging Systems
本文在大规模 del.icio.us 数据集上评估了三种标签相似度度量方法——共现、共现分布的余弦相似度,以及 FolkRank——并通过映射到 WordNet 同义词集来验证其语义特性。研究发现,余弦相似度在同义词检测方面表现最佳,而 FolkRank 和共现度量则更适合发现层级关系和多词词素。
Social bookmarking systems allow users to organise collections of resources on the Web in a collaborative fashion. The increasing popularity of these systems as well as first insights into their emergent semantics have made them relevant to disciplines like knowledge extraction and ontology learning. The problem of devising methods to measure the semantic relatedness between tags and characterizing it semantically is still largely open. Here we analyze three measures of tag relatedness: tag co-occurrence, cosine similarity of co-occurrence distributions, and FolkRank, an adaptation of the PageRank algorithm to folksonomies. Each measure is computed on tags from a large-scale dataset crawled from the social bookmarking system del.icio.us. To provide a semantic grounding of our findings, a connection to WordNet (a semantic lexicon for the English language) is established by mapping tags into synonym sets of WordNet, and applying there well-known metrics of semantic similarity. Our results clearly expose different characteristics of the selected measures of relatedness, making them applicable to different subtasks of knowledge extraction such as synonym detection or discovery of concept hierarchies.
研究动机与目标
- 分析并比较协作标签系统中三种标签相似度度量方法的语义特性。
- 通过词汇语义资源(WordNet)对基于众源分类法的相似度度量进行语义基准化,以增强可解释性。
- 评估哪种相似度度量最适合特定的本体学习任务,如同义词检测、层级关系发现和多词词素识别。
- 提出一种基于 WordNet 路径分析的语义基准化方法,用于评估标签相关度度量方法。
- 为众源分类法中下游知识抽取任务提供合适的相似度度量选择指导。
提出的方法
- 收集 del.icio.us 社交书签系统的大规模标签快照。
- 将 del.icio.us 标签映射到 WordNet 同义词集,以利用已建立的 WordNet 相似度度量实现语义基准化。
- 计算三种标签相关度度量:标签共现次数、共现分布的余弦相似度,以及 FolkRank(一种面向众源分类法的 PageRank 变体)。
- 分析每个标签与其在每种度量下最相关标签之间的 WordNet 最短路径分布,重点关注路径长度和边组成(上下位 vs. 同级)。
- 使用 Jiang 和 Conrath 的语义相似度度量以及 WordNet 分类体系中的路径长度,验证并刻画每种相关度度量的语义本质。
- 通过比较最短路径的边组成(例如,上下行边),推断各类度量是否倾向于同义词、上下位关系或同级关系。
实验结果
研究问题
- RQ1当基于 WordNet 进行语义基准化时,不同标签相关度度量方法(共现、余弦相似度、FolkRank)在语义特性上如何比较?
- RQ2哪种度量方法最准确地识别出众源分类法标签中的语义同义词(同一 WordNet 同义词集)?
- RQ3哪种度量方法最能捕捉众源分类法中标签之间的层级关系(如上下位关系)?
- RQ4三种度量方法在 WordNet 中的最短路径边组成有何不同,这些差异揭示了各类度量的语义偏向?
- RQ5哪种度量方法在识别被拆分为独立标签的多词词素方面最有效?
主要发现
- 余弦相似度在 18% 的情况下识别出属于同一 WordNet 同义词集的标签,表明其在同义词检测方面表现强劲。
- FolkRank 和共现相关度度量的路径长度分布相似,其中 85% 和 87% 的最相关标签在 WordNet 中的路径长度 ≥3。
- 余弦相似度对同级关系(同义词)表现出显著偏向,90% 的长度为 2 的路径由一条上行边和一条下行边组成。
- 共现度量和 FolkRank 度量表现出对上下位关系的偏好,约一半的长度为 1 的路径通向其上位词。
- FolkRank 独特地识别出多词术语(如 'open' 和 'source')之间的双向相关性,彼此均位列对方的前 10 个最相关标签。
- 余弦相似度度量表现出长度为 1 的路径数量显著减少,这与它倾向于同级或同义词关系而非上下位关系的倾向一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。