[论文解读] LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval and Distillation
LLaMP 是一个多模态的检索增强生成框架,使用分层 ReAct 智能体将大型语言模型与材料项目中的高保真材料数据对接,从而在不进行微调的情况下减少幻觉。
Reducing hallucination of Large Language Models (LLMs) is imperative for use in the sciences, where reliability and reproducibility are crucial. However, LLMs inherently lack long-term memory, making it a nontrivial, ad hoc, and inevitably biased task to fine-tune them on domain-specific literature and data. Here we introduce LLaMP, a multimodal retrieval-augmented generation (RAG) framework of hierarchical reasoning-and-acting (ReAct) agents that can dynamically and recursively interact with computational and experimental data on Materials Project (MP) and run atomistic simulations via high-throughput workflow interface. Without fine-tuning, LLaMP demonstrates strong tool usage ability to comprehend and integrate various modalities of materials science concepts, fetch relevant data stores on the fly, process higher-order data (such as crystal structure and elastic tensor), and streamline complex tasks in computational materials and chemistry. We propose a simple metric combining uncertainty and confidence estimates to evaluate the self-consistency of responses by LLaMP and vanilla LLMs. Our benchmark shows that LLaMP effectively mitigates the intrinsic bias in LLMs, counteracting the errors on bulk moduli, electronic bandgaps, and formation energies that seem to derive from mixed data sources. We also demonstrate LLaMP's capability to edit crystal structures and run annealing molecular dynamics simulations using pre-trained machine-learning force fields. The framework offers an intuitive and nearly hallucination-free approach to exploring and scaling materials informatics, and establishes a pathway for knowledge distillation and fine-tuning other language models. Code and live demo are available at https://github.com/chiang-yuan/llamp
研究动机与目标
- 动机:在科学领域需要可靠且具备记忆能力的大型语言模型,以提升可重复性并获取最新数据。
- 提出一个基于检索增强、具备记忆支撑的框架(LLaMP),利用多模态数据源用于材料信息学。
- 展示基于层级的 ReAct 智能体编排,获取、处理并综合材料数据,且无需微调。
- 对比 LLaMP 与 GPT-3.5 的材料性质与晶体结构的内在知识,以量化幻觉减少的程度。
提出的方法
- 实现一个多模态检索增强生成(RAG)框架,通过 API 调用将大型语言模型与 Materials Project、arXiv 和 Wikipedia 连接。
- 采用分层的多智能体 ReAct 规划,顶层智能体协调具备工具包和数据存储的底层专业智能体。
- 整合 API 规范和记忆缓冲区,使推理与行动以高保真数据为基础。
- 通过计划任务分解,展示对高阶数据(张量、晶体结构)和多模态推理的处理能力。
- 将 LLaMP 的输出与 GPT-3.5 的内在知识进行比较,以量化形成能和带隙的 MAPE 降幅。
实验结果
研究问题
- RQ1与内在的 GPT-3.5 知识相比,LLaMP 能否减少材料知识任务中的幻觉?
- RQ2分层 ReAct 智能体在处理复杂查询时检索并整合多模态材料数据(如张量、晶体结构)的效果有多大?
- RQ3LLaMP 在多大程度上能够将合成流程和晶体生成任务建立在高保真 MP 数据之上?
- RQ4检索增强生成(RAG)在纠正标量性质(如形成能、带隙)和张量性质方面的错误有哪些影响?
主要发现
| 属性 | MAPE (%) |
|---|---|
| K(3d 过渡金属的体积模量) | 21.65 |
| ΔHf(形成能) | 1103.54 |
| Eg(带隙) | 5.21 |
| Eg(多元素材料的带隙) | NA |
- 在未使用检索支持的情况下,GPT-3.5 在形成能和部分或不正确的弹性张量上表现出较大的 MAPE。
- 结合 RAG 的 LLaMP 在若干性质上使输出与 MP 的真实值保持一致,减少幻觉并实现对张量与晶体结构的正确检索。
- 形成能的 MAPE 从 1103.54%(GPT-3.5 内在知识)降至接近 MP 实值的水平,使用 LLaMP。
- LLaMP 在生成或编辑晶体结构时保持正确的晶格常数和晶体描述,优于原生 GPT-3.5。
- LLaMP 能够提取基于 MP 数据的合成步骤,避免幻觉式步骤和无关前驱体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。