Skip to main content
QUICK REVIEW

[论文解读] JRC EuroVoc Indexer JEX - A freely available multi-label categorisation tool

Ralf Steinberger, Mohamed Ebrahim|arXiv (Cornell University)|Sep 20, 2013
Text and Document Classification Technologies参考文献 14被引用 26
一句话总结

JEX 是由欧盟委员会联合研究中心(JRC)开发的一款免费多标签分类工具,用于在22种官方语言中自动为欧盟文件分配 EuroVoc 描述符。该工具基于人工标注数据进行监督式机器学习,支持交互式和全自动使用模式,并输出与语言无关的特征向量,适用于跨语言自然语言处理任务(如聚类和抄袭检测)。

ABSTRACT

EuroVoc (2012) is a highly multilingual thesaurus consisting of over 6,700 hierarchically organised subject domains used by European Institutions and many authorities in Member States of the European Union (EU) for the classification and retrieval of official documents. JEX is JRC-developed multi-label classification software that learns from manually labelled data to automatically assign EuroVoc descriptors to new documents in a profile-based category-ranking task. The JEX release consists of trained classifiers for 22 official EU languages, of parallel training data in the same languages, of an interface that allows viewing and amending the assignment results, and of a module that allows users to re-train the tool on their own document collections. JEX allows advanced users to change the document representation so as to possibly improve the categorisation result through linguistic pre-processing. JEX can be used as a tool for interactive EuroVoc descriptor assignment to increase speed and consistency of the human categorisation process, or it can be used fully automatically. The output of JEX is a language-independent EuroVoc feature vector lending itself also as input to various other Language Technology tasks, including cross-lingual clustering and classification, cross-lingual plagiarism detection, sentence selection and ranking, and more.

研究动机与目标

  • 开发一种可扩展的多语言工具,利用 EuroVoc 术语表自动对欧盟官方文件进行主题索引。
  • 通过交互式机器辅助标注,提高人工文档分类的一致性和效率。
  • 通过与语言无关的特征向量,实现分类输出在多种语言技术应用中的重用。
  • 提供可重新训练的系统,支持针对新文档集合和语言预处理的性能调优。
  • 在多语言环境中支持交互式和全自动分类工作流。

提出的方法

  • JEX 采用基于 EuroVoc 术语表的手动标注文档-描述符对进行监督式多标签分类训练。
  • 采用基于特征档案的类别排序方法,为每份文档分配多个 EuroVoc 描述符,并优先考虑相关性。
  • 系统包含针对22种欧盟官方语言的特定语言分类器,基于并行单语训练数据进行训练。
  • 用户界面支持查看、审查和编辑自动分配的描述符,以实现人机协同优化。
  • 重训练模块允许用户使用自定义训练数据,将分类器适配至新的文档集合。
  • 用户可通过语言预处理(如分词、词形还原)修改文档表示,以提升分类准确性。

实验结果

研究问题

  • RQ1多标签分类系统能否在22种欧洲语言中有效为文档分配多个 EuroVoc 描述符?
  • RQ2JEX 在速度和一致性方面与人工分类相比表现如何?
  • RQ3JEX 生成的与语言无关的特征向量在多大程度上可支持下游的跨语言自然语言处理任务?
  • RQ4重训练模块在将系统适配至特定领域文档集合方面的有效性如何?
  • RQ5语言预处理对 JEX 中描述符分配质量的影响如何?

主要发现

  • JEX 成功地使用单一统一框架,在22种欧盟官方语言中为文档分配多个 EuroVoc 描述符。
  • 通过机器辅助标注,系统显著提升了文档分类的一致性并减少了人工工作量。
  • 输出的特征向量与语言无关,可作为聚类和句子排序等跨语言任务的输入。
  • 该工具支持交互式和全自动操作,可在生产环境中灵活部署。
  • 重训练模块允许对分类器进行定制,以适应新领域,提升对专业文档集合的适应能力。
  • 语言预处理选项使用户能够微调文档表示,从而提升分类性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。