Skip to main content
QUICK REVIEW

[论文解读] The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages

Ralf Steinberger, Bruno Pouliquen|ArXiv.org|Sep 12, 2006
Natural Language Processing Techniques参考文献 12被引用 429
一句话总结

JRC-Acquis 是一个免费获取的多语言平行语料库,包含近 8,000 份欧洲联盟法律文件,已翻译成 20 多种欧盟官方语言,涵盖 190 多种语言对的成对段落对齐,使用两种对齐工具(Vanilla 和 HunAlign)。该语料库支持跨语言研究、自然语言处理工具的基准测试,以及多标签分类和关键词分配系统的训练,采用 XML 格式编码,并包含 EUROVOC 主题元数据。

ABSTRACT

We present a new, unique and freely available parallel corpus containing European Union (EU) documents of mostly legal nature. It is available in all 20 official EUanguages, with additional documents being available in the languages of the EU candidate countries. The corpus consists of almost 8,000 documents per language, with an average size of nearly 9 million words per language. Pair-wise paragraph alignment information produced by two different aligners (Vanilla and HunAlign) is available for all 190+ language pair combinations. Most texts have been manually classified according to the EUROVOC subject domains so that the collection can also be used to train and test multi-label classification algorithms and keyword-assignment software. The corpus is encoded in XML, according to the Text Encoding Initiative Guidelines. Due to the large number of parallel texts in many languages, the JRC-Acquis is particularly suitable to carry out all types of cross-language research, as well as to test and benchmark text analysis software across different languages (for instance for alignment, sentence splitting and term extraction).

研究动机与目标

  • 创建一个大规模、可自由访问的欧盟立法文件多语言平行语料库,以支持跨语言研究。
  • 解决高质量、多语言平行语料库中段落级结构对齐在多样化语言对中稀缺的问题。
  • 为训练和评估自然语言处理工具(如句子对齐、术语抽取和多标签分类系统)提供标准化、结构化的资源。
  • 包含详细的主题元数据(EUROVOC),以支持跨语言的语义分类和关键词分配研究。

提出的方法

  • 收集每种语言约 8,000 份欧盟法律文件,每种语言总计近 900 万个词。
  • 应用两种不同的段落对齐工具——Vanilla 和 HunAlign——以生成所有 190 多种语言对组合的对齐平行文本段落。
  • 通过人工方式将文件分类至 EUROVOC 主题领域,以支持语义和多标签分类研究。
  • 按照文本编码倡议(TEI)指南对所有文本进行 XML 编码,以确保结构一致且机器可读。
  • 包含文档类型、语言和主题分类等元数据,以增强在自然语言处理流程中的可搜索性和可用性。
  • 通过公共存储库发布语料库,供学术和研究用途完全访问。

实验结果

研究问题

  • RQ1不同段落对齐技术(Vanilla 和 HunAlign)在对多样化语言对的多语言欧盟法律文件进行对齐时,效果如何?
  • RQ2JRC-Acquis 在多语言欧洲语言中支持多标签文本分类系统训练与评估的程度如何?
  • RQ3该语料库能否作为跨语言自然语言处理任务(如句子切分、术语抽取和对齐准确率)的可靠基准?
  • RQ4包含 EUROVOC 主题元数据在多语言环境下,对关键词分配和语义分类工具性能的提升效果如何?
  • RQ5在应用于多样化语言和法律领域时,大规模多语言平行语料库的可扩展性和一致性如何?

主要发现

  • JRC-Acquis 每种语言包含近 8,000 份文件,每种语言平均约 900 万个词,是目前公开可用的最大规模多语言平行语料库之一。
  • 使用两种不同的对齐工具,成功为所有 190 多种语言对组合生成了段落级对齐,提升了结果的可靠性与可比性。
  • 语料库中大多数文本均经过人工 EUROVOC 主题分类,支持多标签分类和语义索引的高级研究。
  • 采用 TEI 兼容的 XML 结构化语料库,确保了结构一致、机器可处理的访问方式,并支持在多种自然语言处理流程中集成。
  • 该语料库可免费下载,支持研究的可重现性,并在学术界和工业界自然语言处理研究中得到广泛应用。
  • 该资源已在 LREC 2006 会议的基准测试与评估中成功应用,验证了其在跨语言自然语言处理任务中的实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。