Skip to main content
QUICK REVIEW

[论文解读] Representing Verbs with Rich Contexts: an Evaluation on Verb Similarity

Emmanuele Chersoni, Enrico Santus|arXiv (Cornell University)|Jul 7, 2016
Neurobiology of Language and Bilingualism参考文献 22被引用 1
一句话总结

本文提出了一种分布语义模型,使用句法联合上下文(即句子中共同出现的依存关系)来表示动词,而非孤立的词语。通过将动词上下文建模为结构化的句法依存关系,该方法捕捉了更丰富的语义关系,在小语料库中仍能实现与传统单依存关系模型相当或更优的性能,并有效缓解了数据稀疏性问题。

ABSTRACT

Several studies on sentence processing suggest that the mental lexicon keeps track of the mutual expectations between words. Current DSMs, however, represent context words as separate features, thereby loosing important information for word expectations, such as word interrelations. In this paper, we present a DSM that addresses this issue by defining verb contexts as joint syntactic dependencies. We test our representation in a verb similarity task on two datasets, showing that joint contexts achieve performances comparable to single dependencies or even better. Moreover, they are able to overcome the data sparsity problem of joint feature spaces, in spite of the limited size of our training corpus.

研究动机与目标

  • 解决使用丰富联合上下文(如词窗)的分布语义模型(DSM)中的数据稀疏性问题。
  • 通过捕捉事件结构中论元之间的相互依赖关系,改进动词相似性建模。
  • 检验句法结构化的联合上下文是否能优于传统的词袋模型或单依存关系DSM。
  • 评估在不同语料规模和向量空间维度下,联合上下文表示的鲁棒性。
  • 探索将句法依存关系作为全词窗的更抽象、可扩展的替代方案的可行性。

提出的方法

  • 该模型将动词上下文定义为从句法解析句中提取的联合句法依存关系(例如,主语-动词-宾语三元组)。
  • 每个动词通过一个向量表示,其中特征为句法依存三元组,数值为频率或概率。
  • 该模型使用词袋基线、单依存特征和联合依存特征进行对比。
  • 采用奇异值分解(SVD)降低维度,提升泛化能力。
  • 该方法利用依存解析编码关系结构,保留论元之间的语义相互依赖关系。
  • 在两个动词相似性数据集(VerbSim 和 SimLex-999 的动词子集)上进行评估,使用斯皮尔曼等级相关系数作为度量标准。

实验结果

研究问题

  • RQ1句法联合上下文是否能在动词相似性任务中优于传统的词袋模型或单依存关系DSM?
  • RQ2联合上下文表示是否能缓解小语料库中的数据稀疏性问题?
  • RQ3联合上下文表示在不同向量空间维度和SVD降维水平下的性能如何变化?
  • RQ4在语料规模有限时,联合上下文模型是否比基于窗口的模型更具鲁棒性?
  • RQ5与独立特征相比,句法联合上下文是否能更好地捕捉主题契合度和事件级知识?

主要发现

  • 基于联合上下文的DSM在100K维度和SVD k=200设置下,于VerbSim数据集上达到0.607的斯皮尔曼等级相关系数,优于所有其他模型。
  • 在SimLex-999动词子集上,该模型在100K维度和k=200设置下达到0.283的相关系数,为所有测试模型中的最高值。
  • 即使在相对较小的语料库(RCV1)中,该联合上下文模型在多种参数设置下,性能也与单依存关系模型和词袋模型相当或更优。
  • SVD降维提升了性能,k=200在两个数据集上均取得最佳结果。
  • 与词袋模型相比,联合上下文模型表现出更高的稳定性和性能,尤其在高维空间中更为显著。
  • 结果表明,句法联合上下文是全词窗的可行且有效的替代方案,在避免数据稀疏性的同时保留了语义丰富性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。