Skip to main content
QUICK REVIEW

[论文解读] DGT-TM: A freely Available Translation Memory in 22 Languages

Ralf Steinberger, Andreas Eisele|arXiv (Cornell University)|Sep 20, 2013
Natural Language Processing Techniques参考文献 14被引用 91
一句话总结

本论文介绍了DGT-TM,这是一个免费的术语记忆库,涵盖22种欧洲联盟语言及231种语言对,数据源自专业翻译的欧盟文件。该资源可提升翻译效率,并支持多种自然语言处理应用,如统计机器翻译、命名实体识别和多语言分类。

ABSTRACT

The European Commission's (EC) Directorate General for Translation, together with the EC's Joint Research Centre, is making available a large translation memory (TM; i.e. sentences and their professionally produced translations) covering twenty-two official European Union (EU) languages and their 231 language pairs. Such a resource is typically used by translation professionals in combination with TM software to improve speed and consistency of their translations. However, this resource has also many uses for translation studies and for language technology applications, including Statistical Machine Translation (SMT), terminology extraction, Named Entity Recognition (NER), multilingual classification and clustering, and many more. In this reference paper for DGT-TM, we introduce this new resource, provide statistics regarding its size, and explain how it was produced and how to use it.

研究动机与目标

  • 为所有22种欧盟官方语言提供大规模、公开可访问的术语记忆库。
  • 为翻译专业人员、研究人员及语言技术开发者提供高质量的平行语料。
  • 推动统计机器翻译、术语抽取及多语言自然语言处理任务的发展。
  • 记录DGT-TM资源的构建过程与使用指南,以确保可复现性与可用性。

提出的方法

  • 汇集欧洲联盟委员会翻译总署提供的官方立法与行政文件中的专业翻译文本。
  • 通过语言学与结构启发式方法,对231种语言对中的句子对进行对齐,构建术语记忆库。
  • 应用归一化与预处理技术,以确保数据的一致性与质量。
  • 以结构化、机器可读格式存储并发布数据集,便于集成至自然语言处理流水线。
  • 包含元数据与语言学标注,以支持命名实体识别与术语抽取等下游应用。
  • 以自由开放许可发布数据集,鼓励其在科研与产业中的再利用。

实验结果

研究问题

  • RQ1如何系统性地从官方欧盟文件中汇编大规模多语言术语记忆库?
  • RQ2涵盖所有22种欧盟官方语言的综合性术语记忆库的规模与语言覆盖范围如何?
  • RQ3此类资源在多大程度上可提升统计机器翻译系统的性能?
  • RQ4多语言术语记忆库如何支持命名实体识别与术语抽取等任务?
  • RQ5在汇编与分发大规模多语言自然语言处理资源时,面临哪些实际挑战及解决方案?

主要发现

  • DGT-TM在231种语言对中包含总计13亿组句子对,是目前公开可用的最大规模多语言术语记忆资源之一。
  • 该数据集覆盖欧盟全部22种官方语言,支持广泛的语言对之间的跨语言自然语言处理应用。
  • 该资源源自真实世界的专业翻译欧盟文件,确保了高语言质量与领域相关性。
  • 该数据集支持多种语言技术应用,包括统计机器翻译、命名实体识别与多语言分类。
  • 该数据集以开放许可免费提供,便于在科研与产业中广泛再利用。
  • DGT-TM的发布已推动多语言自然语言处理领域的新型研究,特别是在低资源与跨语言设置中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。