QUICK REVIEW

[논문 리뷰] The Open Catalyst 2025 (OC25) Dataset and Models for Solid-Liquid Interfaces

Sushree Jagriti Sahoo, Mikael Maraschin|ArXiv.org|2025. 09. 22.

Catalytic Processes in Materials Science인용 수 5

한 줄 요약

OC25는 1.5백만 개의 고유 시스템에 걸쳐 780만 개의 DFT 계산을 포함한 가장 큰 다양성의 고체-액체 계면 데이터세트를 제공하여 용해된 계면에서 에너지와 힘의 최첨단 정확도를 갖춘 기본 MLIP 모델을 가능하게 합니다.

ABSTRACT

Catalysis at solid-liquid interfaces plays a central role in the advancement of energy storage and sustainable chemical production technologies. By enabling accurate, long-time scale simulations, machine learning (ML) models have the potential to accelerate the discovery of (electro)catalysts. While prior Open Catalyst datasets (OC20 and OC22) have advanced the field by providing large-scale density functional theory (DFT) data of adsorbates on surfaces at solid-gas interfaces, they do not capture the critical role of solvent and electrolyte effects at solid-liquid interfaces. To bridge this gap, we introduce the Open Catalyst 2025 (OC25) dataset, consisting of 7,801,261 calculations across 1,511,270 unique explicit solvent environments. OC25 constitutes the largest and most diverse solid-liquid interface dataset that is currently available and provides configurational and elemental diversity: spanning 88 elements, commonly used solvents/ions, varying solvent layers, and off-equilibrium sampling. State-of-the-art models trained on the OC25 dataset exhibit energy, force, and solvation energy errors as low as 0.1 eV, 0.015 eV/Å, and 0.04 eV, respectively; significantly lower than than the recently released Universal Models for Atoms (UMA-OC20). Additionally, we discuss the impact of the quality of DFT-calculated forces on model training and performance. The dataset and accompanying baseline models are made openly available for the community. We anticipate the dataset to facilitate large length-scale and long-timescale simulations of catalytic transformations at solid-liquid interfaces, advancing molecular-level insights into functional interfaces and enabling the discovery of next-generation energy storage and conversion technologies.

연구 동기 및 목표

고체-액체 및 전기화 계면용 MLIP의 격차를 해소하기 위해 명시적으로 용해된 대규모 다양성 데이터세트를 제공한다.
OC25에서 baseline 그래프 신경망 모델을 평가하여 에너지, 힘, 용해 특성에 대한 성능 벤치마크를 확립한다.
DFT 힘 수렴 및 드리프트 보정이 MLIP 학습 및 평가에 미치는 영향을 조사한다.
인터페이스 촉매의 장시간 시뮬레이션을 가속화하기 위해 공개 데이터세트, 모델 및 코드를 제공한다.]
method: [
표준 데이터세트 구성: 흡착체+표면의 진공 상태 구성을 생성한 뒤 명시적 용매 및 이온으로 해결된 계면을 구성한다.
짧은 시간 MD를 고온으로 수행하고 이완을 진행한 뒤 RPBE+D3를 사용한 VASP에서 단일 포인트 또는 짧은 AIMD 계산을 수행한다.
일관된 힘 레이블을 보장하기 위해 힘 드리프트 임계값(1 eV/Å)으로 학습 데이터를 필터링한다.
에너지 보존 및 직접-힘 구성을 모두 포함하는 베이스라인 MLIP 모델(UMA 및 eSEN 변형)을 학습하고, 세밀하게 조정된 UMA 베이스라인도 포함한다.
에너지 및 힘에 대한 MAE를 보고하며 솔벤트, 이온 및 양자 간의 표준/OOD 세트에 대해 OC25 분할에서 모델을 평가한다.
힘 수렴 설정이 모델 성능에 미치는 영향을 평가하고 패리티 플롯 및 오차 분석을 보고한다.]
research_questions: [
OC25에서 명시적 용매 및 이온 효과를 가진 고체-액체 계면의 에너지 및 힘을 정확히 예측하는 MLIP를 학습할 수 있는가?
OC25의 다양한 용매, 이온 및 표면 화학에서 고체-액체 계면 특성(용해 에너지, 흡착 에너지)은 어떻게 동작하는가?
DFT 힘 수렴 및 드리프트 보정이 고체-액체 계면에서 MLIP 학습 및 평가에 미치는 영향은 무엇인가?
OC25로 학습된 모델에서 OOD 용매와 이온의 일반화 성능은 어느 정도인가?
OC25 과제에 대해 최적의 모델 구성(크기, 에너지 보존 대 직접 힘)은 무엇인가?

제안 방법

정의: 흡착체+표면의 진공 구성을 생성한 뒤 명시적 용매를 포함한 해결된 계면으로 구성한다.
짧은 시간 MD를 고온으로 수행하고 이완을 거친 뒤 VASP에서 RPBE+D3를 사용한 단일 포인트 또는 짧은 AIMD 계산을 수행한다.
일관된 힘 레이블을 보장하기 위해 힘 드리프트 임계값(1 eV/Å)으로 학습 데이터를 필터링한다.
에너지 보존 및 직접-힘 구성 모두를 포함하는 베이스라인 MLIP 모델(UMA 및 eSEN 변형)을 학습하고, 미세 조정된 UMA 베이스라인을 포함한다.
에너지 및 힘에 대한 MAE를 보고하며 솔벤트, 이온 및 양쪽(OOD) 세트에 대해 OC25 분할에서 모델을 평가한다.
힘 수렴 설정이 모델 성능에 미치는 영향을 평가하고 패리티 플롯 및 오차 분석을 보고한다.]
research_questions: ["OC25에서 명시적 용매 및 이온을 포함한 고체-액체 계면의 에너지와 힘을 정확히 예측하는 MLIPs를 학습할 수 있는가?" ,"OC25의 다양한 용매, 이온 및 표면 화학에서 고체-액체 계면 특성은 어떻게 나타나는가?" ,"DFT 힘 수렴 및 드리프트 보정이 MLIP 학습 및 평가에 어떤 영향을 미치는가?" ,"OC25에서 학습된 모델의 OOD 용매 및 이온 일반화 능력은 어느 정도인가?" ,"OC25 작업에 가장 잘 맞는 모델 구성(크기, 에너지 보존 대 직접-힘)은 무엇인가?"]
key_findings: [
OC25는 명시적 용매 환경을 포함한 1,511,270개의 고유 시스템에서 7,801,261개의 단일 포인트 DFT 계산을 포함합니다.
최첨단 모델의 에너지, 힘, 용해 에너지 오차는 각각 최대 0.1 eV, 0.015 eV/Å, 0.04 eV까지 도달하며 UMA-OC20 베이스라인보다 우수합니다.
에너지 보존 모델은 일반적으로 분할에서 에너지 및 힘 예측 모두에서 직접-힘 모델보다 우수합니다.
용해 에너지 오차는 일반적으로 테스트 에너지 오차보다 낮아 상대 특성의 오차 상쇄 가능성을 시사합니다.
OC25에서 학습된 모델은 중간 수준의 레이블 노이즈에 견디며, 힘 수렴 임계값(드리프트)이 힘 정확도에 크게 영향을 주어 데이터 큐레이션에 가이드를 제공합니다.
OOD 평가에서 보이지 않는 용매와 이온에 대해 더 큰 오차가 나타나 일반화 개선의 기회가 있음을 시사합니다.

실험 결과

연구 질문

RQ1OC25에서 명시적 용매 및 이온 효과를 가진 고체-액체 계면의 에너지 및 힘을 정확히 예측하는 MLIP를 학습할 수 있는가?
RQ2OC25의 다양한 용매, 이온 및 표면 화학에서 고체-액체 계면 특성(용해 에너지, 흡착 energetics)은 어떻게 동작하는가?
RQ3DFT 힘 수렴 및 드리프트 보정이 MLIP 학습 및 평가에 미치는 영향은 무엇인가?
RQ4OC25로 학습된 모델에서 OOD 용매 및 이온의 일반화는 얼마나 잘 되는가?
RQ5OC25 작업에서 최상의 모델 구성(크기, 에너지 보존 vs 직접-힘) 은 무엇인가?

주요 결과

OC25에는 명시적 용매 환경에서 1,511,270개의 고유 시스템에 대해 7,801,261개의 단일 포인트 DFT 계산이 포함되어 있습니다.
최첨단 모델의 에너지, 힘 및 용해 에너지 오차는 각각 최대 0.1 eV, 0.015 eV/Å, 0.04 eV로 UMA-OC20 베이스라인을 능가합니다.
에너지 보존 모델은 에너지 및 힘 예측에서 일반적으로 직접-힘 모델보다 우수합니다.
용해 에너지 오차는 테스트 에너지 오차보다 낮은 편으로 상대 특성의 오차 보정 가능성이 있음을 시사합니다.
OC25에서 학습된 모델은 중간 수준의 라벨 노이즈에 견고하며, 드리프트를 포함한 힘 수렴 설정이 힘 정확도에 큰 영향을 미칩니다.
OOD 평가에서 보이지 않는 용매 및 이온의 오차가 더 커 일반화 개선의 기회가 있음을 나타냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.