Skip to main content
QUICK REVIEW

[论文解读] Filling Knowledge Gaps in a Broad-Coverage Machine Translation System

Kevin Knight, Ishwar Chander|ArXiv.org|Jun 10, 1995
Natural Language Processing Techniques参考文献 17被引用 44
一句话总结

本文提出了一种混合方法,通过将统计方法与基于知识的机器翻译(KBMT)相结合,填补大规模覆盖机器翻译系统中的知识空白。结果表明,稳健的统计模型——尤其是用于冠词插入和语义排序的模型——能够有效处理 JAPANGLOSS 日语-英语翻译系统中缺失的词汇、语法和概念知识,实现81%的后期编辑准确率,并显著提升翻译质量,且无需依赖大规模双语语料库。

ABSTRACT

Knowledge-based machine translation (KBMT) techniques yield high quality in domains with detailed semantic models, limited vocabulary, and controlled input grammar. Scaling up along these dimensions means acquiring large knowledge resources. It also means behaving reasonably when definitive knowledge is not yet available. This paper describes how we can fill various KBMT knowledge gaps, often using robust statistical techniques. We describe quantitative and qualitative results from JAPANGLOSS, a broad-coverage Japanese-English MT system.

研究动机与目标

  • 解决在缺乏明确知识时,基于知识的机器翻译(KBMT)系统中的知识空白问题。
  • 将 KBMT 扩展至报纸文本等大规模覆盖领域,这些领域中完整语义和词汇资源不可用。
  • 开发一种即使在知识不完整的情况下也能保持稳健吞吐量和翻译质量的系统。
  • 将统计技术作为桥梁,直至更丰富的知识库或语言理论可用。
  • 证明统计后编辑和推理可有效补偿缺失的 KBMT 组件,而无需依赖大规模双语语料库。

提出的方法

  • 使用80MB英语文本语料库训练的统计后编辑器,对无冠词的英语输出进行冠词插入,准确率达到81%。
  • 采用决策树建模冠词选择中的长距离依赖关系,实现上下文特征的灵活整合。
  • 将 KBMT 类比为噪声信道模型,将中间表示 Interlingua 视为输入,并统计估计 P(I) 和 P(J|I)。
  • 结合人工构建的约束条件与关系n元语法评分,对语义解释分配非零概率。
  • 集成统计推理与词典模块,以处理未知词和缺失语法规则。
  • 采用模块化 KBMT 架构,将解析、语义分析和生成等模块分离,支持各阶段逐步添加知识并填补知识空白。

实验结果

研究问题

  • RQ1当缺乏明确知识时,如何有效填补 KBMT 系统中的知识空白?
  • RQ2统计方法能否可靠地集成到 KBMT 流水线中,以提升鲁棒性和翻译质量?
  • RQ3统计后编辑在多大程度上可以替代完整语义知识,用于冠词选择等任务?
  • RQ4在缺乏完整词汇和语法资源的情况下,系统如何保持高吞吐量和高质量?
  • RQ5在大规模覆盖机器翻译系统中,基于单语语料库训练的统计模型能否有效补偿缺失的 KBMT 组件?

主要发现

  • 冠词插入的统计后编辑器准确率达到81%,显著优于默认决策,接近人类水平表现(96%)。
  • 系统在逐步添加知识时保持稳健吞吐量并持续改进,表明其可扩展至报纸文本等大规模覆盖领域。
  • 统计方法在无需大规模双语语料库的情况下,有效填补了词汇、语法和概念知识的空白。
  • 结合人工约束与关系n元语法评分的语义排序,成功剔除无意义解释,提升了翻译质量。
  • KBMT 的噪声信道类比提供了一个统计框架,即使在知识不完整的情况下,也能对 Interlingua 表示进行概率推理。
  • 将统计模块集成到 KBMT 流水线中,能够有效处理歧义和缺失信息,尤其适用于日语等形态丰富或黏着性语言。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。