Skip to main content
QUICK REVIEW

[論文レビュー] OBELiX: A Curated Dataset of Crystal Structures and Experimentally Measured Ionic Conductivities for Lithium Solid-State Electrolytes

Félix Therrien, Jamal Abou Haibeh|ArXiv.org|Feb 20, 2025
Advanced Battery Materials and Technologies被引用数 3
ひとこと要約

OBELiX は、室温イオン伝導度を持つ固体電解質材料約599件を専門家がキュレーションしたデータセット。321件の CIF を含み、 ML 主導の高速イオン伝導体探索とイオン伝導度予測モデルのベンチマークを可能にする。

ABSTRACT

Solid-state electrolyte batteries are expected to replace liquid electrolyte lithium-ion batteries in the near future thanks to their higher theoretical energy density and improved safety. However, their adoption is currently hindered by their lower effective ionic conductivity, a quantity that governs charge and discharge rates. Identifying highly ion-conductive materials using conventional theoretical calculations and experimental validation is both time-consuming and resource-intensive. While machine learning holds the promise to expedite this process, relevant ionic conductivity and structural data is scarce. Here, we present OBELiX, a database of $\sim$600 synthesized solid electrolyte materials and their experimentally measured room temperature ionic conductivities gathered from literature and curated by domain experts. Each material is described by their measured composition, space group and lattice parameters. A full-crystal description in the form of a crystallographic information file (CIF) is provided for $\sim$320 structures for which atomic positions were available. We discuss various statistics and features of the dataset and provide training and testing splits carefully designed to avoid data leakage. Finally, we benchmark seven existing ML models on the task of predicting ionic conductivity and discuss their performance. The goal of this work is to facilitate the use of machine learning for solid-state electrolyte materials discovery.

研究の動機と目的

  • 高品質で実験に基づくイオン伝導度データセットを提供して、固体電解質の ML 支援発見を促進する。
  • 入手可能な場合には全結晶記述を組み合わせて組成、空間群、格子定数を含み、構造–特性モデリングを可能にする。
  • データ品質を確保し、トレイン/テスト分割間のリークを防いで公正な ML ベンチマークを実現する。
  • イオン伝導度測定の実験的再現性と不確実性を定量化する。
  • 将来の手法開発を導くための即戦力データ分割とベースラインモデルのベンチマークを提供する。

提案手法

  • Liverpool Ionics および Laskowski データセットから 599 エントリのデータセットをキュレーションし、欠損の格子定数と伝導度を手作業で補完する。
  • 組成、空間群、格子定数を含むデスクリプタと、約321件については全 CIF ベースの結晶構造を収集する。
  • ~292 CIF に対して、対称性を保持しつつ小さな分数座標ノイズを追加してオープンリリースを実現し、データの出所を尊重する。
  • モンテカルロ法に基づくリークのない train/test 分割を構築し、論文または組成ごとにエントリをグルーピングし分布的類似性を分割間で維持する。
  • OBELiX の前処理済みデータを用いた場合・使用しない場合の7つの ML モデル(RF、MLP、PaiNN、SchNet、M3GNet、SO3Net、CGCNN)をベンチマークし、log(σ_RT) の平均絶対誤差で評価する。
  • 関連データセット(例えば Materials Project)で一部幾何モデルを事前訓練してから OBELiX に微調整し、転移学習の利点を評価する。

実験結果

リサーチクエスチョン

  • RQ1文献からキュレーションした Li を含む固体電解質の室温イオン伝導度の品質とカバレッジはどの程度か。
  • RQ2少量でリークのないデータセットに対して、組成、空間群、格子定数、および全結晶構造から室温イオン伝導度を機械学習モデルが予測できるか。
  • RQ3異なる ML アーキテクチャ(グラフベースと従来モデルを含む)は、慎重なデータ分割と占有履歴処理条件下で OBELiX の σ_RT を予測する際にどのような性能を示すか。
  • RQ4部分占有とデータリークがイオン伝導度予測モデルの性能に与える影響はどの程度か。
  • RQ5同一組成/構造に対する測定の再現性はどの程度で、ベンチマークにどのように影響するか。

主な発見

ModelCross-val MAETest MAE
Experiment0.41
Median pred.2.16 (2.81)
RF0.96 ± 0.151.54 (1.82)
MLP1.24 ± 0.261.64 (2.17)
PaiNN1.65 ± 0.212.88
SchNet1.79 ± 0.232.89
M3GNet1.89 ± 0.312.74
SO3Net2.02 ± 0.252.76
CGCNN1.87 ± 0.352.84
p-PaiNN2.05 ± 0.252.69
p-SchNet2.17 ± 0.682.61
p-M3GNet1.81 ± 0.293.04
p-CGCNN1.84 ± 0.332.52
  • OBELiX には ionic conductivities と descriptors を含む 599 エントリ、うち 321 CIF が含まれる。292 CIF はノイズを加えた分数座標と共に公開されている。
  • 慎重に構成された train/test 分割により、分布的類似性を維持しつつデータの約 20% をテストセットとして割り当て、リークを減少させる。
  • モデル全体では、単純な RF/MLP のベースラインが、この小規模で占有値の多いデータセット上の幾つかの 3D ジオメトリック GNN よりも優れており、ジオメトリベースモデルのデータ不足と部分占有の課題を浮き彫りにしている。
  • 部分占有は現在の 3D グラフモデルでは適切に扱われておらず(占有が丸められると組成が変わる可能性がある)、これがそれらのモデルの性能低下に寄与している。
  • 事前訓練は一部モデルで限定的な利点をもたらすが、全体としては小データ領域と部分占有に適応したドメイン特化モデルの必要性を強調している。
  • ベンチマーク結果(交差検証 MAE およびテスト MAE)は RF: ~0.96 (±0.15) クロスバリデーション MAE、1.54 (1.82) テスト MAE; MLP: ~1.24 (±0.26) クロスバリデーション MAE、1.64 (2.17) テスト MAE;トップのニューラルおよびグラフモデルは一般に高い MAE を達成し、p-CGCNN はテスト MAE ~2.52。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。