QUICK REVIEW

[论文解读] Extraction of domain-specific bilingual lexicon from comparable corpora: compositional translation and ranking

Estelle Delpech, Béatrice Daille|arXiv (Cornell University)|Oct 21, 2012

Natural Language Processing Techniques参考文献 34被引用 25

一句话总结

本文提出了一种从可比语料库中提取领域特定双语词典的方法，利用词素级翻译等价关系和组合翻译生成‘丰饶’翻译（即目标术语比源术语更长）；仅使用每种语言400,000个词的语料库，该方法在英语-法语和英语-德语语对上的最高候选翻译中实现了91%的平均精确率。

ABSTRACT

This paper proposes a method for extracting translations of morphologically constructed terms from comparable corpora. The method is based on compositional translation and exploits translation equivalences at the morpheme-level, which allows for the generation of "fertile" translations (translation pairs in which the target term has more words than the source term). Ranking methods relying on corpus-based and translation-based features are used to select the best candidate translation. We obtain an average precision of 91% on the Top1 candidate translation. The method was tested on two language pairs (English-French and English-German) and with a small specialized comparable corpora (400k words per language).

研究动机与目标

解决在缺乏平行语料库的情况下构建准确、领域特定双语词典的挑战。
通过利用形态构成，实现生成‘丰饶’翻译（即目标术语比源术语更复杂）的能力。
仅使用可比语料库，在专业领域中提升翻译质量，避免依赖平行数据。
通过结合语料库特征和翻译特征，实现对候选翻译的有效排序。

提出的方法

该方法将术语分解为词素，并从可比语料库中识别词素级翻译等价关系。
通过组合已翻译的词素，应用组合翻译方法，为多词术语生成候选翻译。
使用语料库特征（如共现频率）和翻译特征（如对齐置信度）的加权组合对翻译候选进行排序。
特征包括n-gram共现、词素对齐得分，以及从可比语料库中推导出的翻译概率估计值。
排序模型在小型领域可比语料库（每种语言400,000词）上进行训练和评估，语料对为英语-法语和英语-德语。
该方法利用现有的形态分析工具，以支持术语的准确分解与组合。

实验结果

研究问题

RQ1能否从可比语料库中可靠地提取词素级翻译等价关系，以支持专业领域中的术语翻译？
RQ2利用词素级映射进行组合翻译在生成准确且‘丰饶’的翻译方面效果如何？
RQ3语料库特征与翻译特征的何种组合能实现候选翻译排序的最佳性能？
RQ4在多大程度上，小规模可比语料库（每种语言400,000词）能够支持高精度双语词典提取？
RQ5该方法在不同语种对（如英语-法语和英语-德语）中的表现如何？

主要发现

该方法在英语-法语和英语-德语语对上的最高候选翻译中实现了91%的平均精确率。
使用词素级翻译等价关系可实现‘丰饶’翻译的生成，即目标术语比源术语更复杂。
语料库特征（如共现频率）显著提升了排序性能。
翻译特征（包括对齐置信度和词素级概率）对排序准确率有重要贡献。
即使训练数据有限，该方法依然有效，仅需每种语言400,000词的可比语料库。
该方法在不同语种对之间表现出良好的泛化能力，表明其对语言差异具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。