QUICK REVIEW

[论文解读] WiC: the Word-in-Context Dataset for Evaluating Context-Sensitive Meaning Representations

Mohammad Taher Pilehvar, José Camacho-Collados|arXiv (Cornell University)|Aug 28, 2018

Topic Modeling参考文献 26被引用 92

一句话总结

WiC 引入一个大型、由专家标注的二分类基准，用于上下文敏感的词义评估，能够评估上下文中的上下文化表示和基于意义的表示。它突出了最先进模型与人类表现之间的差距。

ABSTRACT

By design, word embeddings are unable to model the dynamic nature of words' semantics, i.e., the property of words to correspond to potentially different meanings. To address this limitation, dozens of specialized meaning representation techniques such as sense or contextualized embeddings have been proposed. However, despite the popularity of research on this topic, very few evaluation benchmarks exist that specifically focus on the dynamic semantics of words. In this paper we show that existing models have surpassed the performance ceiling of the standard evaluation dataset for the purpose, i.e., Stanford Contextual Word Similarity, and highlight its shortcomings. To address the lack of a suitable benchmark, we put forward a large-scale Word in Context dataset, called WiC, based on annotations curated by experts, for generic evaluation of context-sensitive representations. WiC is released in https://pilehvar.github.io/wic/.

研究动机与目标

为聚焦于超越静态嵌入的动态词义基准的需要提供动机。
创建一个高质量、规模较大的数据集（WiC），用于对上下文敏感表示的通用评估。
提供平衡的训练/开发/测试分割，目标词和上下文多样。
评估 WiC 基准上的一系列上下文相关和多原型嵌入模型。
提供模型优劣及人类上界表现的见解。

提出的方法

通过从 WordNet、Wiktionary 和 VerbNet 提取目标词的上下文对，并通过 BabelNet 进行映射以实现跨资源覆盖，构建 WiC。
将 WordNet 的意义精简去粗化，降低细粒度区分，提高清晰度。
进行半自动后处理和质量检查，包括对样本进行人工标注以估计人类性能上限。
针对简单基线（BoW、Sentence LSTM）用二元分类（同义/不同）评估上下文相关模型（Context2vec、ELMo、BERT 变体）以及多原型模型（DeConf、SW2V、JBT）。
报告准确度并给出多次运行的结果，并直接与人类上限对比（约 80%）。
使用简单阈值或 MLP 进行最终分类，指出基于阈值的方法通常具有更高的效率。

实验结果

研究问题

RQ1不同上下文中，同一目标词的两个出现是否能正确区分它们是否拥有相同的含义的上下文敏感词表示？
RQ2现代的上下文相关和多原型嵌入在为动态语义设计的高质量、语言无关的基准上表现如何？
RQ3WiC 上模型表现与人类理解之间的差距有多大，这对未来研究意味着什么？
RQ4修剪和数据集构建选择（如超级意义粗化）是否提升上下文敏感表示的语义清晰度和可评估性？
RQ5哪些模型家族对 WiC 最为有效，他们的结果对当前意义表示中的上下文处理有何启示？

主要发现

WiC 对所有模型都具挑战性；表现最好的模型（BERT large）相比随机基线约高出 15.5 个百分点。
像 BERT 这样的上下文相关模型在评估方法中表现最强，但仍远低于人类上限（约 80%）。
Context2vec 和 ELMo 在许多情况下相对于简单 BoW 基线收益有限，凸显捕捉细粒度语义区别的难度。
DeConf（多原型）和 SW2V 从语义层级信息中获益，DeConf 在被评估的方法中表现最好，尽管仍远低于人类同等水平。
很大一部分测试对涉及的目标词不在部分模型覆盖范围内，凸显现实世界中的词表外挑战。
修剪策略显著提升数据集清晰度，如在被修剪子集上的 annotator agreement 和人类准确率提高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。