Skip to main content
QUICK REVIEW

[论文解读] PyKEEN 1.0: A Python Library for Training and Evaluating Knowledge Graph Embeddings

Mehdi Ali, Max Berrendorf|arXiv (Cornell University)|Jul 28, 2020
Advanced Graph Neural Networks参考文献 15被引用 89
一句话总结

PyKEEN 1.0 是一个重新设计的 Python 库,提供完全集成的知识图嵌入模型、自动内存优化,以及用于训练和评估 KGEs 的广泛超参数优化。

ABSTRACT

Recently, knowledge graph embeddings (KGEs) received significant attention, and several software libraries have been developed for training and evaluating KGEs. While each of them addresses specific needs, we re-designed and re-implemented PyKEEN, one of the first KGE libraries, in a community effort. PyKEEN 1.0 enables users to compose knowledge graph embedding models (KGEMs) based on a wide range of interaction models, training approaches, loss functions, and permits the explicit modeling of inverse relations. Besides, an automatic memory optimization has been realized in order to exploit the provided hardware optimally, and through the integration of Optuna extensive hyper-parameter optimization (HPO) functionalities are provided.

研究动机与目标

  • 阐明需要一个高度可配置且可重用的 KG 嵌入工具包,它支持多样的模型组件。
  • 提供统一、可组合的架构,用于交互模型、损失函数、训练方法和逆关系。
  • 通过标准化指标和可扩展的基准数据集实现公平且可重复的评估。
  • 结合自动内存优化和高级 HPO,以提升可扩展性和鲁棒性。
  • 通过开源实践和工具推动以社区为驱动的开发与可维护性。

提出的方法

  • 将 KGEM 定义为四个组件的组合:交互模型、损失函数、训练方法以及逆关系处理。
  • 提供 23 种交互模型、7 种损失函数、4 种正则化、2 种训练方法,以及 13 个内置数据集,以实现灵活的模型构造。
  • 使适用的交互模型能够显式建模逆关系。
  • 统一的 API(pykeen.model.Model、pykeen.loss.Loss、pykeen.training.TrainingLoop)以确保组件的完全可组合性和可替换性。
  • 整合 Optuna 进行带有早停的超参数优化,并提供用于稳健验证、训练和测试的 HPO 工作流。
  • 实现自动内存优化以在给定硬件条件下计算最大可行的训练/评估批量大小,并在需要时调整子批次。

实验结果

研究问题

  • RQ1如何使 KG 嵌入模型实现完全可组合,以便独立评估各组件?
  • RQ2在训练与评估过程中需要哪些机制来自动优化内存使用?
  • RQ3如何将超参数优化有效整合到 KG 嵌入工作流中?
  • RQ4为了实现稳健且可重复的 KGEM 评估,需要哪些评估能力(指标、数据集、逆关系)?
  • RQ5如何将 PyKEEN 作为开放源代码社区项目进行扩展和维护?

主要发现

  • PyKEEN 1.0 支持 23 种交互模型、7 种损失函数、4 种正则化、2 种训练方法、6 种评估指标,以及 13 个内置基准数据集。
  • 该框架通过统一的模型、损失和训练循环 API,实现对逆关系的显式建模与完全可组合性。
  • 自动内存优化通过将批量大小调整到可用硬件,确保训练与评估的内存效率。
  • 集成基于 Optuna 的超参数优化,结合早停,在验证和测试运行中提高鲁棒性。
  • 该库通过自动化测试、持续集成和文档强调可重复性和可维护性,并以 MIT 许可证发布。
  • PyKEEN 1.0 被定位为比相关 KGEM 库更具可组合性和更多特性,强调可扩展性和内存管理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。