Skip to main content
QUICK REVIEW

[論文レビュー] The Open Catalyst 2025 (OC25) Dataset and Models for Solid-Liquid Interfaces

Sushree Jagriti Sahoo, Mikael Maraschin|ArXiv.org|Sep 22, 2025
Catalytic Processes in Materials Science被引用数 5
ひとこと要約

OC25 は、固液界面に対して最大級の多様なデータセットを提供し、7.8 million DFT calculations across 1.5 million unique systems により、溶媒併存界面のエネルギーと力の最先端精度を持つ基準MLIPモデルを実現します。

ABSTRACT

Catalysis at solid-liquid interfaces plays a central role in the advancement of energy storage and sustainable chemical production technologies. By enabling accurate, long-time scale simulations, machine learning (ML) models have the potential to accelerate the discovery of (electro)catalysts. While prior Open Catalyst datasets (OC20 and OC22) have advanced the field by providing large-scale density functional theory (DFT) data of adsorbates on surfaces at solid-gas interfaces, they do not capture the critical role of solvent and electrolyte effects at solid-liquid interfaces. To bridge this gap, we introduce the Open Catalyst 2025 (OC25) dataset, consisting of 7,801,261 calculations across 1,511,270 unique explicit solvent environments. OC25 constitutes the largest and most diverse solid-liquid interface dataset that is currently available and provides configurational and elemental diversity: spanning 88 elements, commonly used solvents/ions, varying solvent layers, and off-equilibrium sampling. State-of-the-art models trained on the OC25 dataset exhibit energy, force, and solvation energy errors as low as 0.1 eV, 0.015 eV/Å, and 0.04 eV, respectively; significantly lower than than the recently released Universal Models for Atoms (UMA-OC20). Additionally, we discuss the impact of the quality of DFT-calculated forces on model training and performance. The dataset and accompanying baseline models are made openly available for the community. We anticipate the dataset to facilitate large length-scale and long-timescale simulations of catalytic transformations at solid-liquid interfaces, advancing molecular-level insights into functional interfaces and enabling the discovery of next-generation energy storage and conversion technologies.

研究の動機と目的

  • 大規模で多様かつ明示的に溶媒和されたデータセットを提供することで、固液界面および電化界面に対するMLIPのギャップを埋める。
  • OC25上で基礎的なグラフニューラルネットワークモデルを評価し、エネルギー、力、溶存性の特性の性能指標を確立する。
  • MLIPの訓練と評価におけるDFT力収束とドリフト補正の影響を調査する。
  • 長時間スケールの界面触媒反応のシミュレーションを促進するため、公開可能なデータセット、モデル、コードを提供する。

提案手法

  • 吸着種+表面の真空中での構成を生成し、次に明示的な溶媒とイオンを含む溶媒和界面を構築する。
  • 高温での短時間MDと緩和を実施し、続いてVASPでRPBE+D3を用いたDFT単点計算または短いAIMD計算を行う。
  • 力のドリフト閾値(1 eV/Å)を用いて訓練データをフィルタリングし、力ラベルの一貫性を確保する。
  • エネルギー保存型と直接力形式の両方を含む基礎的なMLIPモデル(UMAおよびeSEN系)を訓練し、さらに微調整したUMAベースラインも用意する。
  • 溶媒、イオン、両方のOODセットを含む標準分割とOC25分割でモデルを評価し、エネルギーと力のMAEを報告する。
  • 力の収束設定がモデル性能に与える影響を評価し、パリティプロットと誤差分析を報告する。

実験結果

リサーチクエスチョン

  • RQ1OC25 が明示的な溶媒とイオン効果を持つ固液界面のエネルギーと力を正確に予測するMLIPを訓練できるか。
  • RQ2OC25における多様な溶媒、イオン、表面化学における固液界面特性(溶媒化エネルギー、吸着エネルギー)はどのように振る舞うか。
  • RQ3DFT力収束とドリフト補正が固液界面でのMLIP訓練と評価に与える影響は何か。
  • RQ4OC25 を訓練したモデルはOODの溶媒とイオンをどの程度一般化できるか。
  • RQ5OC25 のタスクにおける最も性能の高いモデル設定(サイズ、エネルギー保存 vs 直接力)は何か。

主な発見

  • OC25 は 7,801,261 件の単一点 DFT 計算を、1,511,270 のユニークな系と 88 種の要素で、明示的な溶媒環境とともに含む。
  • エネルギー、力、溶媒化エネルギーの誤差は、最先端モデルでそれぞれ0.1 eV、0.015 eV/Å、0.04 eV にまで低減し、UMA-OC20 のベースラインを上回る。
  • エネルギー保存モデルは、分割全体でエネルギーと力の予測において、一般的に直接力モデルを上回る。
  • 溶媒化エネルギーの誤差はテストエネルギー誤差より通常小さく、相対特性の誤差相殺の可能性を示唆する。
  • OC25 で訓練されたモデルは中程度のラベルノイズに対して頑健だが、力の収束閾値(ドリフト)は力の精度に顕著な影響を与え、データ選別の決定に指針を提供する。
  • OOD 評価では未知の溶媒とイオンでより大きな誤差を示し、一般化を改善する機会を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。