[论文解读] Disambiguating bilingual nominal entries against WordNet
本文提出一种方法,通过结合语义密度与结构合并两种互补策略,利用 WordNet 对法语-英语和西班牙语-英语词典中的双语名词条目进行消歧。关键贡献是构建了一个包含 24,535 个连接的多语言词典知识库(MLKB),实现了 78% 的人工评估准确率和 90% 的最大可能连接覆盖率。
This paper explores the acquisition of conceptual knowledge from bilingual dictionaries (French/English, Spanish/English and English/Spanish) using a pre-existing broad coverage Lexical Knowledge Base (LKB) WordNet. Bilingual nominal entries are disambiguated agains WordNet, therefore linking the bilingual dictionaries to WordNet yielding a multilingual LKB (MLKB). The resulting MLKB has the same structure as WordNet, but some nodes are attached additionally to disambiguated vocabulary of other languages. Two different, complementary approaches are explored. In one of the approaches each entry of the dictionary is taken in turn, exploiting the information in the entry itself. The inferential capability for disambiguating the translation is given by Semantic Density over WordNet. In the other approach, the bilingual dictionary was merged with WordNet, exploiting mainly synonymy relations. Each of the approaches was used in a different dictionary. Both approaches attain high levels of precision on their own, showing that disambiguating bilingual nominal entries, and therefore linking bilingual dictionaries to WordNet is a feasible task.
研究动机与目标
- 解决自然语言处理系统中手动创建词典条目所面临的劳动密集型挑战。
- 利用 WordNet 作为现有多语言词典知识库,自动从双语词典中获取概念知识。
- 开发并评估两种互补的双语名词条目消歧技术:语义密度与结构合并。
- 通过将双语词典条目链接至 WordNet 同义词集,构建多语言词典知识库(MLKB)。
- 通过上下文感知消歧与结构利用,提升多语言词典资源的覆盖率与精确度。
提出的方法
- 利用 WordNet 上的语义密度,基于语境线索(如语义场、法语线索、翻译多义性)对翻译条目进行消歧。
- 应用形态学分析以处理 WordNet 中未直接包含的复杂翻译与线索。
- 通过利用同义关系与条目间共享翻译,将双语词典与 WordNet 进行合并。
- 将双语子条目分类为四种消歧情形:单义翻译、多重翻译、法语线索与语义场。
- 结合两种方法的结果以最大化覆盖率与精确度,并对 100 个连接进行人工验证。
- 通过基于翻译等价性与结构对齐,将西班牙语名词附加至 WordNet 同义词集,构建微型西班牙语 WordNet。
实验结果
研究问题
- RQ1当存在语境线索时,WordNet 上的语义密度是否能有效对双语名词条目进行消歧?
- RQ2在不依赖语境的情况下,双语词典中的结构模式(如同义关系与共享翻译)在多大程度上可用于将条目链接至 WordNet?
- RQ3将基于上下文的消歧与结构合并相结合,如何提升多语言词典知识库的覆盖率与准确率?
- RQ4使用混合技术将双语词典条目链接至 WordNet 时,可实现的覆盖率与准确率是多少?
- RQ5不同类型的消歧线索(如语义场、线索、多重翻译)对整体成功率的贡献如何?
主要发现
- 对 100 个随机选取的连接进行人工评估,方法准确率达到 78%,表明将双语条目链接至 WordNet 时具有较高的精确度。
- 共建立了 24,535 个连接,连接了 12,039 个西班牙语名词与 15,897 个 WordNet 同义词集,形成覆盖率达 90% 最大可能连接数的微型西班牙语 WordNet。
- 多重翻译情形(案例 2)贡献的连接最多(14,164 个),其次为唯一翻译(11,089 个)与共享翻译(3,164 个),表明结构合并具有高度生产力。
- 英语翻译在 WordNet 中的覆盖率受限于 76%,主要由于多义性、复数形式及无法直接匹配 WordNet 条目的复杂短语。
- 最终 MLKB 中的多义比率(每个西班牙语名词对应 2.03 个同义词集)与同义关系度(1.54)表明对词汇歧义的处理效果良好。
- 语义密度与结构合并技术的结合所获得的覆盖率高于任一方法单独使用,表明二者具有显著互补性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。