[论文解读] "I don't believe in word senses"
本文主张词义并非基本的语义单位,而是从语料引文集群中抽象出的概念,其存在依赖于特定任务和目的。该文挑战了自然语言处理(NLP)中固定、基于词典的词义假设,提出词义消歧应基于与上下文相关的实际语言使用集群,而非预定义的词汇条目。
Word sense disambiguation assumes word senses. Within the lexicography and linguistics literature, they are known to be very slippery entities. The paper looks at problems with existing accounts of `word sense' and describes the various kinds of ways in which a word's meaning can deviate from its core meaning. An analysis is presented in which word senses are abstractions from clusters of corpus citations, in accordance with current lexicographic practice. The corpus citations, not the word senses, are the basic objects in the ontology. The corpus citations will be clustered into senses according to the purposes of whoever or whatever does the clustering. In the absence of such purposes, word senses do not exist. Word sense disambiguation also needs a set of word senses to disambiguate between. In most recent work, the set has been taken from a general-purpose lexical resource, with the assumption that the lexical resource describes the word senses of English/French/..., between which NLP applications will need to disambiguate. The implication of the paper is, by contrast, that word senses exist only relative to a task.
研究动机与目标
- 批判NLP与词典学中关于词义是离散、稳定且普遍适用的语义单位的假设。
- 解决语言学与计算研究中‘词义’概念缺乏原则性基础的问题。
- 提出一种替代本体论:将语料引文(即实际语言使用中的词语用法)作为基本单位,词义则是从这些引文集群中抽象出的派生概念。
- 证明词义并非语言固有的,而是相对于特定目的(如词典编纂或NLP应用)构建的。
- 论证对于NLP而言,不存在单一、普遍适用的词义集合既不现实也不必要,因为语言使用和应用需求具有多样性。
提出的方法
- 将语料引文视为基本数据单元,将其作为本体中的主要对象,而非抽象的词义。
- 提出词义作为语义和句法上相似的引文集群而浮现,基于共享的模式与意义。
- 利用语料数据(如BNC和音乐新闻语料)的实证证据,表明词语使用在不同领域中的差异及其对词义形成的影响。
- 说明词语的非标准或创造性用法(如‘handbag’作动词)并非可生成性预测,而是具有历史和语境特异性,需显式列入词汇条目。
- 倡导在NLP中采用任务特定的分层词典,仅在需要时添加新词汇条目(如‘verbally handbag’),而非依赖通用词义清单。
- 重新定义词义消歧:不是寻找预存的词义,而是识别特定应用所需的相关用法集群。
实验结果
研究问题
- RQ1在词典学与NLP中,将词义视为离散、稳定单位的理论与实证基础是什么?
- RQ2为何过去三十年来试图为‘词义’建立稳固基础的努力均告失败?
- RQ3语料引文及其聚类在实践中如何与词义形成相关联?
- RQ4在多大程度上,词义由编辑政策、用户需求和领域特定用法决定,而非内在的语言属性?
- RQ5NLP系统能否通过将词义视为基于用法集群的任务相关抽象,而非通用词典中的固定条目,从而实现更优的消歧?
主要发现
- 词义并非基本的语义单位,而是从语料引文集群中抽象出的概念,不具有独立的本体论地位。
- ‘词义’这一概念在理论上极不稳定,且在语言学与计算研究中缺乏稳固基础。
- 词典编纂的词义受编辑政策和目标用户需求影响,而非普遍的语义原则。
- 非标准或创造性的词语用法(如‘handbag’作动词)无法通过生成方式预测,通常源于特定的历史或搭配模式。
- 不同语料(如BNC与音乐新闻语料)对同一词语会呈现不同的显著词义,表明词义集合具有上下文依赖性。
- NLP系统不应依赖通用词义清单;而应根据特定任务需要,动态扩展其词典,增加对代表性不足或新颖用法的条目。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。