[论文解读] Extraction of domain-specific bilingual lexicon from comparable corpora: compositional translation and ranking
本文提出了一种从可比语料库中提取领域特定双语词典的方法,利用词素级翻译等价关系和组合翻译生成‘丰饶’翻译(即目标术语比源术语更长);仅使用每种语言400,000个词的语料库,该方法在英语-法语和英语-德语语对上的最高候选翻译中实现了91%的平均精确率。
This paper proposes a method for extracting translations of morphologically constructed terms from comparable corpora. The method is based on compositional translation and exploits translation equivalences at the morpheme-level, which allows for the generation of "fertile" translations (translation pairs in which the target term has more words than the source term). Ranking methods relying on corpus-based and translation-based features are used to select the best candidate translation. We obtain an average precision of 91% on the Top1 candidate translation. The method was tested on two language pairs (English-French and English-German) and with a small specialized comparable corpora (400k words per language).
研究动机与目标
- 解决在缺乏平行语料库的情况下构建准确、领域特定双语词典的挑战。
- 通过利用形态构成,实现生成‘丰饶’翻译(即目标术语比源术语更复杂)的能力。
- 仅使用可比语料库,在专业领域中提升翻译质量,避免依赖平行数据。
- 通过结合语料库特征和翻译特征,实现对候选翻译的有效排序。
提出的方法
- 该方法将术语分解为词素,并从可比语料库中识别词素级翻译等价关系。
- 通过组合已翻译的词素,应用组合翻译方法,为多词术语生成候选翻译。
- 使用语料库特征(如共现频率)和翻译特征(如对齐置信度)的加权组合对翻译候选进行排序。
- 特征包括n-gram共现、词素对齐得分,以及从可比语料库中推导出的翻译概率估计值。
- 排序模型在小型领域可比语料库(每种语言400,000词)上进行训练和评估,语料对为英语-法语和英语-德语。
- 该方法利用现有的形态分析工具,以支持术语的准确分解与组合。
实验结果
研究问题
- RQ1能否从可比语料库中可靠地提取词素级翻译等价关系,以支持专业领域中的术语翻译?
- RQ2利用词素级映射进行组合翻译在生成准确且‘丰饶’的翻译方面效果如何?
- RQ3语料库特征与翻译特征的何种组合能实现候选翻译排序的最佳性能?
- RQ4在多大程度上,小规模可比语料库(每种语言400,000词)能够支持高精度双语词典提取?
- RQ5该方法在不同语种对(如英语-法语和英语-德语)中的表现如何?
主要发现
- 该方法在英语-法语和英语-德语语对上的最高候选翻译中实现了91%的平均精确率。
- 使用词素级翻译等价关系可实现‘丰饶’翻译的生成,即目标术语比源术语更复杂。
- 语料库特征(如共现频率)显著提升了排序性能。
- 翻译特征(包括对齐置信度和词素级概率)对排序准确率有重要贡献。
- 即使训练数据有限,该方法依然有效,仅需每种语言400,000词的可比语料库。
- 该方法在不同语种对之间表现出良好的泛化能力,表明其对语言差异具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。