[论文解读] The Open Catalyst 2025 (OC25) Dataset and Models for Solid-Liquid Interfaces
OC25 提供了最大规模的多样化固-液界面数据集,涵盖 7.8 million DFT 计算,涉及 1.5 million unique systems,为在溶剂化界面中的能量和力的前沿准确性基线的 MLIP 模型提供支持。
Catalysis at solid-liquid interfaces plays a central role in the advancement of energy storage and sustainable chemical production technologies. By enabling accurate, long-time scale simulations, machine learning (ML) models have the potential to accelerate the discovery of (electro)catalysts. While prior Open Catalyst datasets (OC20 and OC22) have advanced the field by providing large-scale density functional theory (DFT) data of adsorbates on surfaces at solid-gas interfaces, they do not capture the critical role of solvent and electrolyte effects at solid-liquid interfaces. To bridge this gap, we introduce the Open Catalyst 2025 (OC25) dataset, consisting of 7,801,261 calculations across 1,511,270 unique explicit solvent environments. OC25 constitutes the largest and most diverse solid-liquid interface dataset that is currently available and provides configurational and elemental diversity: spanning 88 elements, commonly used solvents/ions, varying solvent layers, and off-equilibrium sampling. State-of-the-art models trained on the OC25 dataset exhibit energy, force, and solvation energy errors as low as 0.1 eV, 0.015 eV/Å, and 0.04 eV, respectively; significantly lower than than the recently released Universal Models for Atoms (UMA-OC20). Additionally, we discuss the impact of the quality of DFT-calculated forces on model training and performance. The dataset and accompanying baseline models are made openly available for the community. We anticipate the dataset to facilitate large length-scale and long-timescale simulations of catalytic transformations at solid-liquid interfaces, advancing molecular-level insights into functional interfaces and enabling the discovery of next-generation energy storage and conversion technologies.
研究动机与目标
- 桥接固-液界面与电化界面 MLIPs 之间的差距,提供一个大规模、多样化、显式溶剂化的数据集。
- 在 OC25 上评估基线图卷积网络模型,以建立能量、力和溶剂化性质的性能基准。
- 研究 DFT 力收敛和漂移校正对 MLIP 训练与评估的影响。
- 提供公开可用的数据集、模型和代码,促进界面催化的长时间尺度模拟。
提出的方法
- 从真空下的吸附物+表面生成构型,然后用显式溶剂和离子构建溶剂化界面。
- 在高温下进行短时分子动力学并进行放松,随后使用 RPBE+D3 在 VASP 进行单点或短 AIMD 的 DFT 计算。
- 使用力漂移阈值(1 eV/Å)筛选训练数据,以确保力标签的一致性。
- 训练基线 MLIP 模型(UMA 和 eSEN 变体),包括能量守恒与直接力形式,以及对 UMA 基线的微调。
- 在 OC25 的分割上评估模型,包括标准集和用于溶剂、离子及两者的OOD(分布外)集,报告能量和力的 MAE。
- 评估力收敛设定对模型性能的影响,并给出并行度图与误差分析。
实验结果
研究问题
- RQ1OC25 能否训练出能准确预测固-液界面(包含显式溶剂和离子效应)能量与力的 MLIPs?
- RQ2在 OC25 中,固-液界面性质(溶剂化能、吸附能量学)在多样溶剂、离子和表面化学组成下的表现如何?
- RQ3DFT 力收敛与漂移校正对固-液界面上的 MLIP 训练与评估有何影响?
- RQ4在 OC25 训练的模型中,OOD 溶剂和离子的泛化能力有多好?
- RQ5哪些模型配置(尺寸、能量守恒 vs 直接力)在 OC25 任务中表现最好?
主要发现
- OC25 包含 7,801,261 次单点 DFT 计算,覆盖 1,511,270 种独特体系和 88 种元素,且包含显式溶剂环境。
- 对最先进模型而言,能量、力和溶剂化能误差分别低至 0.1 eV、0.015 eV/Å 和 0.04 eV,超越了 UMA-OC20 基线。
- 能量守恒模型在能量和力预测方面通常优于直接力模型,跨分割具有更好表现。
- 溶剂化能误差通常小于测试能量误差,表明相对性质可能存在误差抵消。
- 在 OC25 上训练的模型对中等标签噪声具有韧性;强制收敛阈值(漂移)显著影响力的准确性,为数据筛选决策提供指引。
- OOD 评估显示未见溶剂与离子时误差增大,凸显提升泛化性的机会。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。