[论文解读] Extending and Applying Automated HERMES Software Publication Workflows
本文介绍了 HERMES 软件出版工作流的扩展与应用,该工作流是一个自动化系统,通过持久标识符(如 DOI)在 FAIR 原则下发布带有丰富元数据的研究软件。该工作流引入了插件架构,支持针对不同元数据源和基础设施的定制化,通过案例研究证明了其可行性,并展示了即使对于非专业开发者也具备良好的可扩展性。
Research software is an important output of research and must be published according to the FAIR Principles for Research Software. This can be achieved by publishing software with metadata under a persistent identifier. HERMES is a tool that leverages continuous integration to automate the publication of software with rich metadata. In this work, we describe the HERMES workflow itself, and how to extend it to meet the needs of specific research software metadata or infrastructure. We introduce the HERMES plugin architecture and provide the example of creating a new HERMES plugin that harvests metadata from a metadata source in source code repositories. We show how to use HERMES as an end user, both via the command line interface, and as a step in a continuous integration pipeline. Finally, we report three informal case studies whose results provide a preliminary evaluation of the feasibility and applicability of HERMES workflows, and the extensibility of the hermes software package.
研究动机与目标
- 解决研究软件出版过程中手动、易出错的元数据整理问题。
- 通过持久标识符(如 DOI)实现研究软件的自动化、FAIR 合规出版。
- 通过插件架构扩展 HERMES 工作流,支持自定义元数据采集与目标发布。
- 评估 HERMES 工作流及其 hermes 软件包在真实环境中的可行性、可用性和可扩展性。
- 识别文档和配置方面的不足,以更好地支持各类利益相关方,包括 RSE、开发人员和基础设施提供方。
提出的方法
- HERMES 通过五阶段 CI 流水线实现软件出版:采集、处理、整理、发布和后处理。
- hermes Python 包实现了工作流各阶段,并通过模块化 API 支持与各种元数据源和存储库的集成。
- 插件架构允许开发人员通过创建自定义插件来扩展 HERMES,用于从源代码仓库中采集元数据,包括结构化(如引用文件格式)和非结构化源(如 README 文件)。
- 工作流在 GitHub Actions 和 GitLab CI 等 CI 系统中配置,实现基于推送的自动化,且不依赖第三方服务。
- 作者通过现场编程工作坊、对真实仓库的非正式案例研究,以及一名非专业开发人员的插件开发案例,对系统进行了评估。
- hermes 包支持命令行界面使用和 CI 流水线集成,并提供文档和模板以降低入门门槛。
实验结果
研究问题
- RQ1Q1:HERMES 工作流在多大程度上能有效支持用户发布带有丰富元数据的软件?其关键实现挑战是什么?
- RQ2Q2:hermes 包及其文档在多大程度上能有效支持无 HERMES 使用经验的开发人员通过新插件扩展系统?
- RQ3Q3:如何改进 hermes 包及其文档以满足包括 RSE、开发人员和基础设施提供方在内的多样化利益相关方的需求?
主要发现
- HERMES 工作流在真实研究软件仓库的案例研究中证明了其可行性与适用性,可有效实现 FAIR 合规的软件出版。
- hermes 包使非专业开发人员能够成功创建并集成新插件,用于从源代码仓库采集元数据,表明其具备强大的可扩展性。
- 插件开发过程表明,尽管当前 API 功能完整,但缺乏专门用于处理 CodeMeta 兼容链接数据集的库,增加了实现复杂度。
- 案例研究发现,配置管理和默认工作流模式对可用性至关重要,提示需要更完善的开箱即用配置。
- 项目文档和模板在新用户入门方面表现有效,但需进一步改进以支持多样化的基础设施生态系统。
- 利益相关方的多样性——尤其是研究软件基础设施提供方——被确认为未来评估的关键,因当前研究在范围和样本量上存在局限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。