Skip to main content
QUICK REVIEW

[論文レビュー] LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval and Distillation

Yuan Chiang, Hsieh, Elvis|arXiv (Cornell University)|Jan 30, 2024
Machine Learning in Materials Science被引用数 21
ひとこと要約

LLaMPは、階層的な ReAct エージェントを用いて LLM を Materials Project の高忠実度な材料データへ grounding し、ファインチューニングなしで幻覚を減らす、多模態の Retrieval-Augmented Generation(RAG)フレームワークです。

ABSTRACT

Reducing hallucination of Large Language Models (LLMs) is imperative for use in the sciences, where reliability and reproducibility are crucial. However, LLMs inherently lack long-term memory, making it a nontrivial, ad hoc, and inevitably biased task to fine-tune them on domain-specific literature and data. Here we introduce LLaMP, a multimodal retrieval-augmented generation (RAG) framework of hierarchical reasoning-and-acting (ReAct) agents that can dynamically and recursively interact with computational and experimental data on Materials Project (MP) and run atomistic simulations via high-throughput workflow interface. Without fine-tuning, LLaMP demonstrates strong tool usage ability to comprehend and integrate various modalities of materials science concepts, fetch relevant data stores on the fly, process higher-order data (such as crystal structure and elastic tensor), and streamline complex tasks in computational materials and chemistry. We propose a simple metric combining uncertainty and confidence estimates to evaluate the self-consistency of responses by LLaMP and vanilla LLMs. Our benchmark shows that LLaMP effectively mitigates the intrinsic bias in LLMs, counteracting the errors on bulk moduli, electronic bandgaps, and formation energies that seem to derive from mixed data sources. We also demonstrate LLaMP's capability to edit crystal structures and run annealing molecular dynamics simulations using pre-trained machine-learning force fields. The framework offers an intuitive and nearly hallucination-free approach to exploring and scaling materials informatics, and establishes a pathway for knowledge distillation and fine-tuning other language models. Code and live demo are available at https://github.com/chiang-yuan/llamp

研究の動機と目的

  • 再現性と最新データアクセスのために、科学分野で信頼性が高く、記憶機能を備えた LLM の必要性を動機づける。
  • 材料情報学のために、マルチモーダルデータソースを用いた retrieval-augmented・ memory-grounded フレームワーク(LLaMP)を提案する。
  • ファインチューニングなしで、材料データの取得・処理・合成を行う階層ベースの ReAct エージェントのオーケストレーションを実演する。
  • 材料特性と結晶構造に関する intrinsic GPT-3.5 の知識と比較して LLaMP を評価し、幻覚の低減を定量化する。

提案手法

  • LLMs を Materials Project、arXiv、Wikipedia と API 呼び出し経由で接続する、マルチモーダル retrieval-augmented generation (RAG) フレームワークを実装する。
  • ツールキットとデータストアを備えた専門の下位エージェントを統括するトップレベルのエージェントを用いた、階層的・マルチエージェントの ReAct 計画を用いる。
  • API スキーマとメモリバッファを組み込んで、推論と行動を高忠実度データに grounding する。
  • 計画されたタスク分解を通じて、高次データ処理(テンソル、結晶構造)とマルチモーダル推論を実証する。
  • 形成エネルギーとバンドギャップの MAPE の削減を定量化するため、LLaMP の出力をGPT-3.5 intrinsic knowledge と比較する。

実験結果

リサーチクエスチョン

  • RQ1材料知識タスクにおいて、intrinsic GPT-3.5 の知識と比較して LLaMP は幻覚を低減できるか?
  • RQ2階層的 ReAct エージェントは、複雑なクエリに対して、マルチモーダル材料データ(例:テンソル、結晶構造)をどれだけ効果的に取得・統合できるか?
  • RQ3LLaMP は合成手順や結晶生成タスクをどの程度高忠実度の MP データへ grounding できるか?
  • RQ4RAG がスカラー特性(例:formation energy、bandgaps)およびテンソル特性の誤りを訂正する効果はどの程度か?

主な発見

PropertyMAPE (%)
K(3d 遷移金属の体積弾性率)21.65
ΔHf(形成エネルギー)1103.54
Eg(バンドギャップ)5.21
Eg(バンドギャップ、多元素材料)NA
  • GPT-3.5 は retrieval 支援なしでは formation energies の MAPE が大きく、不完全または不正確なエラスティックテンソルを示す。
  • RAG を用いた LLaMP は、いくつかの特性で MP の真値と出力を一致させ、幻覚を低減し、正確なテンソルおよび構造の取得を可能にする。
  • formation energies の MAPE は、GPT-3.5 intrinsic の 1103.54% から LLaMP で MP-ground-truth 値に近い値へ低下する。
  • 結晶構造を生成または編集する際、LLaMP は正しい格子定数と結晶記述を維持し、素の GPT-3.5 を上回る。
  • LLaMP は MP データに grounding された合成手順を抽出でき、幻覚のある手順や関係ない前駆体を避ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。