Skip to main content
QUICK REVIEW

[论文解读] Building a Large-Scale Knowledge Base for Machine Translation

Kevin Knight, Steve K. Luk|ArXiv.org|Jul 29, 1994
Natural Language Processing Techniques参考文献 13被引用 185
一句话总结

本文提出了一种半自动方法,用于构建一个大规模、多语言的知识库(本体)——包含约70,000个概念,以支持基于知识的机器翻译(KBMT)。通过使用自动化匹配与消歧算法,将多种资源(WordNet、LDOCE、PENMAN上层模型、ONTOS,以及西班牙语-英语双语词典)进行融合,作者构建了一个统一的多语言语义框架,支持语义解析与生成,显著减少了知识库构建中的手动工作量。

ABSTRACT

Knowledge-based machine translation (KBMT) systems have achieved excellent results in constrained domains, but have not yet scaled up to newspaper text. The reason is that knowledge resources (lexicons, grammar rules, world models) must be painstakingly handcrafted from scratch. One of the hypotheses being tested in the PANGLOSS machine translation project is whether or not these resources can be semi-automatically acquired on a very large scale. This paper focuses on the construction of a large ontology (or knowledge base, or world model) for supporting KBMT. It contains representations for some 70,000 commonly encountered objects, processes, qualities, and relations. The ontology was constructed by merging various online dictionaries, semantic networks, and bilingual resources, through semi-automatic methods. Some of these methods (e.g., conceptual matching of semantic taxonomies) are broadly applicable to problems of importing/exporting knowledge from one KB to another. Other methods (e.g., bilingual matching) allow a knowledge engineer to build up an index to a KB in a second language, such as Spanish or Japanese.

研究动机与目标

  • 通过构建大规模、可重用的知识库,将基于知识的机器翻译(KBMT)从受限领域扩展至报纸级文本。
  • 通过支持从现有资源中半自动获取知识,解决KBMT中的主要瓶颈——即词典、语法规则与世界模型的手动创建。
  • 开发一个支持多语言翻译系统中语义分析与表面生成的多语言本体。
  • 通过利用双语词典与语义资源,实现从西班牙语概念到英语概念的跨语言映射。
  • 通过使用优先展示高置信度自动映射的验证界面,减少知识库构建中的人工工作量。

提出的方法

  • 整合五种异构语言资源:PENMAN上层模型、ONTOS、朗文当代英语词典(LDOCE)、WordNet,以及哈珀柯林斯西班牙语-英语双语词典。
  • 使用定义匹配算法,通过将LDOCE词义与受控词汇定义进行匹配,将LDOCE词义映射到本体概念。
  • 应用双语匹配算法,通过利用双语词典中的词义划分、同义词与主题领域编码,将西班牙语词汇映射到英语本体概念。
  • 利用WordNet的同义词集(synsets)及其层次结构,通过在分类法中寻找共同祖先节点,实现语义消歧。
  • 基于到达共同父节点所遍历的WordNet链接数量,实施置信度惩罚机制,以降低低置信度映射的影响。
  • 自动生成柯林斯双语词典主题领域编码与LDOCE语义编码之间的对应表,以提升消歧效果,并过滤罕见匹配。

实验结果

研究问题

  • RQ1能否利用现有语言资源,半自动地构建大规模机器翻译知识库,从而减少对手动整理的依赖?
  • RQ2在将双语词典条目映射到统一本体时,如何改进语义消歧,特别是当翻译存在歧义时?
  • RQ3双语词典与单语词典中的主题领域编码在多大程度上可以对齐,以改善跨语言概念映射?
  • RQ4整合多种语义资源(如WordNet与LDOCE)是否能揭示不一致性,从而暴露原始数据中的错误或促进更优的分类整合?

主要发现

  • 作者成功构建了一个多语言本体,其中间区域包含约50,000个节点,代表了常见的英语词义与概念。
  • 双语匹配算法生成了约50,000个从西班牙语词汇到本体概念的候选映射,这些映射被优先用于人工验证。
  • 使用自动生成的主题领域编码对应表(基于资源重叠)有助于过滤虚假匹配,将出现次数少于六次的匹配予以剔除。
  • 合并后的验证过程揭示了WordNet与LDOCE分类法之间存在数百处不一致,表明在属义识别或组织结构上存在错误。
  • 半自动合并过程能够检测错误并识别冗余或互补资源中的遗漏,从而提升了整体知识库质量。
  • 通过优先展示高置信度映射,显著加快了人工验证速度,其界面设计类似于拼写检查工具,证明了该验证工作流的实际可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。