Skip to main content
QUICK REVIEW

[论文解读] Extraction of domain-specific bilingual lexicon from comparable corpora: compositional translation and ranking

Estelle Delpech, Béatrice Daille|arXiv (Cornell University)|Oct 21, 2012
Natural Language Processing Techniques参考文献 34被引用 25
一句话总结

本文提出了一种从可比语料库中提取领域特定双语词典的方法,利用词素级翻译等价关系和组合翻译生成‘丰饶’翻译(即目标术语比源术语更长);仅使用每种语言400,000个词的语料库,该方法在英语-法语和英语-德语语对上的最高候选翻译中实现了91%的平均精确率。

ABSTRACT

This paper proposes a method for extracting translations of morphologically constructed terms from comparable corpora. The method is based on compositional translation and exploits translation equivalences at the morpheme-level, which allows for the generation of "fertile" translations (translation pairs in which the target term has more words than the source term). Ranking methods relying on corpus-based and translation-based features are used to select the best candidate translation. We obtain an average precision of 91% on the Top1 candidate translation. The method was tested on two language pairs (English-French and English-German) and with a small specialized comparable corpora (400k words per language).

研究动机与目标

  • 解决在缺乏平行语料库的情况下构建准确、领域特定双语词典的挑战。
  • 通过利用形态构成,实现生成‘丰饶’翻译(即目标术语比源术语更复杂)的能力。
  • 仅使用可比语料库,在专业领域中提升翻译质量,避免依赖平行数据。
  • 通过结合语料库特征和翻译特征,实现对候选翻译的有效排序。

提出的方法

  • 该方法将术语分解为词素,并从可比语料库中识别词素级翻译等价关系。
  • 通过组合已翻译的词素,应用组合翻译方法,为多词术语生成候选翻译。
  • 使用语料库特征(如共现频率)和翻译特征(如对齐置信度)的加权组合对翻译候选进行排序。
  • 特征包括n-gram共现、词素对齐得分,以及从可比语料库中推导出的翻译概率估计值。
  • 排序模型在小型领域可比语料库(每种语言400,000词)上进行训练和评估,语料对为英语-法语和英语-德语。
  • 该方法利用现有的形态分析工具,以支持术语的准确分解与组合。

实验结果

研究问题

  • RQ1能否从可比语料库中可靠地提取词素级翻译等价关系,以支持专业领域中的术语翻译?
  • RQ2利用词素级映射进行组合翻译在生成准确且‘丰饶’的翻译方面效果如何?
  • RQ3语料库特征与翻译特征的何种组合能实现候选翻译排序的最佳性能?
  • RQ4在多大程度上,小规模可比语料库(每种语言400,000词)能够支持高精度双语词典提取?
  • RQ5该方法在不同语种对(如英语-法语和英语-德语)中的表现如何?

主要发现

  • 该方法在英语-法语和英语-德语语对上的最高候选翻译中实现了91%的平均精确率。
  • 使用词素级翻译等价关系可实现‘丰饶’翻译的生成,即目标术语比源术语更复杂。
  • 语料库特征(如共现频率)显著提升了排序性能。
  • 翻译特征(包括对齐置信度和词素级概率)对排序准确率有重要贡献。
  • 即使训练数据有限,该方法依然有效,仅需每种语言400,000词的可比语料库。
  • 该方法在不同语种对之间表现出良好的泛化能力,表明其对语言差异具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。