QUICK REVIEW

[论文解读] Robust Machine Learning Framework for Reliable Discovery of High-Performance Half-Heusler Thermoelectrics

Shoeb Athar, Adrien Mecibah|arXiv (Cornell University)|Feb 1, 2026

Advanced Thermoelectric Materials and Devices被引用 0

一句话总结

本论文提出一种鲁棒的机器学习工作流，用于预测半霍尔斯型热电材料的zT，包括基于PCA的训练/测试划分、慎重的特征筛选、贝叶斯超参数优化、SISSO描述符、SHAP分析，以及对约6.6e8种组成在稳定性约束下的高通量筛选(HTS)。

ABSTRACT

Machine learning (ML) can facilitate efficient thermoelectric (TE) material discovery essential to address the environmental crisis. However, ML models often suffer from poor experimental generalizability despite high metrics. This study presents a robust workflow, applied to the half-Heusler (hH) structural prototype, for figure of merit (zT) prediction, to improve the generalizability of ML models. To resolve challenges in dataset handling and feature filtering, we first introduce a rigorous PCA-based splitting method that ensures training and test sets are unbiased and representative of the full chemical space. We then integrate Bayesian hyperparameter optimization with k-best feature filtering across three architectures-Random Forest, XGBoost, and Neural Networks - while employing SISSO symbolic regression for physical insight and comparison. Using SHAP and SISSO analysis, we identify A-site dopant concentration (xA'), and A-site Heat of Vaporization (HVA) as the primary drivers of zT besides Temperature (T). Finally, a high-throughput screening of approximately 6.6x10^8 potential compositions, filtered by stability constraints, yielded several novel high-zT candidates. Breaking from the traditional focus of improving test RMSE/R^2 values of the models, this work shifts the attention on establishing the test set a true proxy for model generalizability and strengthening the often neglected modules of the existing ML workflows for the data-driven design of next-generation thermoelectric materials.

研究动机与目标

通过开发一个公平的、基于化学空间的训练/测试划分，解决热电材料机器学习模型的泛化能力差的问题。
整合特征筛选、超参数优化和可解释描述符，以提高半霍尔斯材料的zT预测。
提供一个严格的HTS流程，在稳定性约束下识别新的高zT半霍尔斯组成。
实现集成和跨技术取平均，以增强泛化能力并实现数据驱动的热电材料设计。

提出的方法

用117维向量表示每个半霍尔斯组成（114个元素特征 + 3掺杂浓度）再加上温度，总共118个输入特征。
在13维PCA空间中提出基于PCA的训练/测试划分，五折保持化学空间多样性。
通过对元素特征与zT的皮尔逊相关性进行排名进行k-best特征筛选，然后在位点特征图上使用Bron–Kerbosch算法进行冗余去除。
使用贝叶斯优化对RF、XGBoost和神经网络在逐步增大的特征子集上调优超参数。
引入SISSO以识别将zT表示为复杂特征的稀疏线性组合的符号描述符，并通过迭代变量选择来管理大规模特征池。
在五个PCA折叠和多种ML技术之间进行集合平均，以给出zT预测，并对预测进行插值以达到HTS目标温度673 K。
对约6.6×10^8个候选掺杂/未掺杂的ABC半霍尔斯组成进行HTS，应用来自两个数据库(OQMD和MP)的Hull-distance稳定性筛选以及价电子数约束(17–19个电子)。
离散化掺杂浓度(0–0.5)并对温度相关的zT进行插值到673 K，以用于HTS评估。

实验结果

研究问题

RQ1如何使训练/测试划分在化学空间上公平，以更好地评估半霍尔斯材料zT的机器学习泛化能力？
RQ2哪种特征筛选、超参数优化和描述符学习的组合能得到比标准以RMSE为目标的做法更具泛化性的zT预测？
RQ3是否存在一个鲁棒的HTS工作流，在实际稳定性约束下识别出新的高zT半霍尔斯组成？
RQ4掺杂浓度和A位蒸汽焓对zT预测的影响在模型解释中体现为何？

主要发现

13维PCA空间能够捕捉数据集方差的95%，实现公平的训练/测试划分。
117维组成特征向量（114个EF特征 + 3掺杂浓度）+ 温度，构成每个数据点118个输入特征。
SBSA/特征排序显示A位掺杂浓度和A位蒸汽焓，以及温度，是驱动zT的主要因素。
对约6.6×10^8个候选组成的HTS，经两数据库的稳定性约束筛选后，产生若干新颖的高-zT候选。
SISSO提供符号描述符，具有物理直观性并可与ML模型进行对比。
在五个基于PCA的折叠和多种ML技术的集合平均提升泛化性，且对673 K的温度插值得到的预测与HTS目标一致。
基于数据库的信息的Hull-distance筛选( OQMD: 0.15 eV/原子； MP: 0.9 eV/原子 )以及价电子数约束(17–19电子)在HTS中有效地剔除了不稳定候选。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。