[论文解读] Agent-based Learning of Materials Datasets from Scientific Literature
tldr: 介绍 Eunomia,一种由 GPT-4 提供支持的、基于化学信息的 AI 代理,能够从非结构化文献中自动构建结构化材料数据集,在三个 NLP 信息抽取任务上与微调基线相比实现具竞争力的零-shot 表现。
Advancements in machine learning and artificial intelligence are transforming materials discovery. Yet, the availability of structured experimental data remains a bottleneck. The vast corpus of scientific literature presents a valuable and rich resource of such data. However, manual dataset creation from these resources is challenging due to issues in maintaining quality and consistency, scalability limitations, and the risk of human error and bias. Therefore, in this work, we develop a chemist AI agent, powered by large language models (LLMs), to overcome these challenges by autonomously creating structured datasets from natural language text, ranging from sentences and paragraphs to extensive scientific research articles. Our chemist AI agent, Eunomia, can plan and execute actions by leveraging the existing knowledge from decades of scientific research articles, scientists, the Internet and other tools altogether. We benchmark the performance of our approach in three different information extraction tasks with various levels of complexity, including solid-state impurity doping, metal-organic framework (MOF) chemical formula, and property relations. Our results demonstrate that our zero-shot agent, with the appropriate tools, is capable of attaining performance that is either superior or comparable to the state-of-the-art fine-tuned materials information extraction methods. This approach simplifies compilation of machine learning-ready datasets for various materials discovery applications, and significantly ease the accessibility of advanced natural language processing tools for novice users in natural language. The methodology in this work is developed as an open-source software on https://github.com/AI4ChemS/Eunomia.
研究动机与目标
- 推进从非结构化文献中提取结构化材料数据以加速机器学习驱动的发现的需求。
- 开发一个自主化学 AI 代理(Eunomia),利用大语言模型和领域工具,在不进行微调的情况下创建可用于机器学习的数据集。
- 在三个逐步复杂的材料 NLP 任务上展示零-shot 信息抽取性能。
- 展示通过工具辅助的验证来减少幻觉并提升数据质量。
- 提供开源工具和数据集,以促进研究人员和非专家的采用。
提出的方法
- 使用基于 GPT-4 的代理(Eunomia),具备规划和工具使用能力(ReAct)以从文本中提取数据。
- 通过化学信息化的工具包(Doc Search、Dataset Search、CSV Generator)对 LLM 进行增强,以获取文献、数据库并结构化输出。
- 实现一个 Chain-of-Verification(CoV)过程,迭代地将代理输出与预定义标准进行验证,以减少幻觉。
- 以三个案例研究进行基准评估(主机对多种掺杂物的关系、MOF 公式/客体种类、MOF 水稳定性属性),与微调的 LLM 基线(LLM-NERRE)对比。
- 将输出表示为结构化数据集(CSV/JSON),并通过 Streamlit 应用提供开源代码和部署。
实验结果
研究问题
- RQ1一个零-shot、工具增强的基于 LLM 的代理是否能够可靠地从材料科学的科学文本中提取命名实体识别/关系抽取数据?
- RQ2Eunomia 在越来越难的任务(从单句到整篇论文)上的表现与微调基线相比如何?
- RQ3Chain-of-Verification 技术是否能减少幻觉并提高抽取的准确性和产出?
- RQ4面向非专家的开源代理框架在从文献生成 ML-ready 数据方面的可行性与可用性如何?
主要发现
| Case Study | Model | Entity Type | Precision | Recall | F1 Score |
|---|---|---|---|---|---|
| Case Study 1 | LLM-NERRE | hosts | 0.892 | 0.874 | 0.883 |
| Case Study 1 | Eunomia | hosts | 0.753 | 0.768 | 0.760 |
| Case Study 1 | Eunomia+CoV | hosts | 0.964 | 0.853 | 0.905 |
| Case Study 1 | LLM-NERRE | dopants | 0.831 | 0.812 | 0.821 |
| Case Study 1 | Eunomia | dopants | 0.859 | 0.788 | 0.822 |
| Case Study 1 | Eunomia+CoV | dopants | 0.962 | 0.882 | 0.920 |
| Case Study 2 | LLM-NERRE | mof formula | 0.409 | 0.455 | 0.424 |
| Case Study 2 | Eunomia | mof formula | 0.623 | 0.589 | 0.606 |
| Case Study 2 | LLM-NERRE | guest species | 0.588 | 0.665 | 0.606 |
| Case Study 2 | Eunomia | guest species | 0.429 | 0.923 | 0.585 |
| Case Study 3 | Eunomia+CoV | MOF water stability (ternary accuracy) | - | - | 0.91 |
- 在案例研究评估中,当结合 Chain-of-Verification 时,Eunomia 常常达到甚至超过微调基线,尤其是在增强的情况下。
- 案例研究 1(主机对多种掺杂物):Eunomia+CoV 在主机和掺杂物的 F1 分数上达到最高,分别为 0.905 和 0.920,相对于 LLM-NERRE。
- 案例研究 2(MOF 公式/客体种类):Eunomia 在 MOF 公式的 F1 提高到 0.606,超过 LLM-NERRE 的 0.424;对于客体种类,召回率较高(0.923),但精确度较低(0.429)。
- 案例研究 3(MOF 水稳定性):在有 CoV 的情况下,产出率为 86.20%,三元精度为 0.91;若无 CoV,精度降至 0.86,产出率降至 82.70%。
- 该方法借助领域感知工具实现快速、零-shot 的数据提取,降低标注负担并实现人机在环监督。
- 所有数据和代码均公开可用(GitHub),以便复现和再利用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。