[论文解读] What is word sense disambiguation good for?
本文挑战了词义消歧(WSD)在自然语言处理(NLP)中普遍必要的假设,认为词义是社会建构的,而非语言学上的根本要素。研究发现,WSD仅在机器翻译和信息检索中至关重要,而大多数NLP应用——尤其是领域特定的语言理解系统——依赖于上下文连贯性检查和领域模型,这些机制本身就能自然化解歧义,因此大规模WSD的必要性远低于传统认知。
Word sense disambiguation has developed as a sub-area of natural language processing, as if, like parsing, it was a well-defined task which was a pre-requisite to a wide range of language-understanding applications. First, I review earlier work which shows that a set of senses for a word is only ever defined relative to a particular human purpose, and that a view of word senses as part of the linguistic furniture lacks theoretical underpinnings. Then, I investigate whether and how word sense ambiguity is in fact a problem for different varieties of NLP application.
研究动机与目标
- 挑战NLP中词义消歧(WSD)作为普遍必需的预处理任务的假设。
- 调查词义歧义在不同NLP应用类型中是否构成显著问题。
- 论证词义并非语言学上的基础,而是由词典编纂传统和人类目的所塑造的产物。
- 评估WSD对具体NLP应用(包括信息检索、机器翻译、句法分析、词典编纂和自然语言理解)的实际影响。
- 提出WSD的效用具有应用依赖性,且领域特定模型通常能在无需显式消歧的情况下化解歧义。
提出的方法
- 分析词典词义的历史与社会学基础,以证明其并非语言学上的必要要素,而是服务于调解争议等社会功能。
- 通过CORPORA邮件列表对NLP从业者进行调查,评估WSD在各类应用中的实际影响。
- 通过评估歧义对性能影响的程度,比较WSD在不同NLP任务中的作用。
- 考察带词义标注的语料库和WSD程序如何反哺词典编纂实践。
- 在自然语言理解系统中,利用上下文连贯性检查和类型约束作为隐式消歧机制。
- 通过结合词汇偏好数据与句法消歧策略,评估WSD在句法分析中的性能。
实验结果
研究问题
- RQ1词义消歧是否是所有NLP应用的必要组成部分,还是其重要性被夸大了?
- RQ2词义歧义在信息检索、机器翻译、句法分析、词典编纂和自然语言理解中在多大程度上构成实际问题?
- RQ3为何不同词典定义不同的词义集合,这对WSD作为计算任务意味着什么?
- RQ4领域特定知识模型是否能无需显式WSD即隐式化解词义歧义?
- RQ5WSD系统与词典编纂实践在实践中如何相互影响?
主要发现
- 词义消歧并非根本性的语言学问题,而是受词典传统和争议调解需求塑造的社会建构。
- 在信息检索中,词义歧义造成中等程度的问题,但可通过使用更长查询加以缓解,从而降低对WSD的需求。
- 机器翻译面临显著的WSD挑战,因为双语词典中存在一对一和多对多映射,使WSD对准确性至关重要。
- 句法分析未明显受词义歧义影响,因为句法消歧通常由词汇偏好解决,尽管此结论尚未得到实证检验。
- 词典编纂者从WSD中受益,因为带词义标注的语料库可减少手动查找相关词义用例的时间。
- 自然语言理解系统很少面临严重的词义歧义,因为领域模型和连贯性检查能隐式化解绝大多数歧义,无需显式消歧。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。