[论文解读] Using Curvature and Markov Clustering in Graphs for Lexical Acquisition and Word Sense Discrimination
本文提出两种基于图的方法——基于曲率的聚类和链接聚类——用于从英国国家语料库的语义关系中进行词汇获取和词义区分。通过将名词建模为节点,其在并列结构中的共现关系建模为边,作者应用图曲率识别枢纽节点,使用马尔可夫聚类(MCL)将边划分为语义一致的聚类。链接聚类在6个WordNet层级内实现超过85%的准确率,优于其他方法,表明其在词义区分和词汇获取方面表现更优。
We introduce two different approaches for clustering semantically similar words. We accommodate ambiguity by allowing a word to belong to several clusters. Both methods use a graph-theoretic representation of words and their paradigmatic relationships. The first approach is based on the concept of curvature and divides the word graph into classes of similar words by removing words of low curvature which connect several dispersed clusters. The second method, instead of clustering the nodes, clusters the links in our graph. These contain more specific contextual information than nodes representing just words. In so doing, we naturally accommodate ambiguity by allowing multiple class membership. Both methods are evaluated on a lexical acquisition task, using clustering to add nouns to the WordNet taxonomy. The most effective method is link clustering.
研究动机与目标
- 通过从语料库数据中建模语义关系,解决词汇获取中的词义歧义问题。
- 开发基于图论的方法,使词语能够属于多个聚类,以适应多义性。
- 在将名词添加到WordNet分类体系的任务中评估聚类技术。
- 比较基于节点的聚类(曲率与MCL)与基于链接的聚类在捕捉语义相似性与词义差异方面的有效性。
提出的方法
- 利用词法句法模式从英国国家语料库构建词语图,其中节点表示名词,边表示名词在并列结构中的共现关系。
- 应用图曲率衡量一个词语邻居之间的互联程度,曲率定义为涉及该词语邻居的实际三角形与可能三角形的比值。
- 使用马尔可夫聚类(MCL)模拟随机游走,识别图中密集且语义一致的聚类。
- 通过将每个并列结构模式视为一个语义节点,引入链接聚类,实现更细粒度且上下文敏感的聚类。
- 通过仅保留参与三角形的边来减少噪声,确保语义相关性的相互确认。
- 通过将聚类标签与WordNet分类体系进行比较,评估方法在词汇获取中的表现,测量在给定WordNet层级间隔内的准确率。
实验结果
研究问题
- RQ1图曲率能否有效识别语义一致的词语聚类,同时处理歧义?
- RQ2与基于节点的聚类相比,将并列结构模式视为节点的链接聚类是否能提升词义区分能力?
- RQ3基于曲率的聚类在相同词汇获取任务中与马尔可夫聚类相比表现如何?
- RQ4基于图的方法在无需预先存在的词汇资源的情况下,能在多大程度上从原始文本中学习语义关系?
- RQ5所得聚类在多大程度上与WordNet的层次结构对齐?
主要发现
- 链接聚类在6个WordNet层级内实现了超过85%的准确率,显著优于曲率聚类和标准MCL。
- 在链接图上运行的MCL错误分配标签数最少(14个,共1,200个测试词),而原始图上的MCL和曲率聚类分别错误分配了32个和69个。
- 曲率聚类覆盖度较低,1,200个测试词中有854个未能聚类,需借助深度优先搜索将其分配至聚类。
- 在最高频词类别中,链接聚类在6个层级后超越了原始图上的MCL,显示出在准确率上的持续优势。
- 对于高频词,链接聚类在12个WordNet层级内实现了100%的准确率,表明其在高覆盖率词汇上的强大表现。
- 结果证实,链接聚类更能捕捉特定上下文的语义差异,因此在词汇获取和词义区分方面更具有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。