QUICK REVIEW

[論文レビュー] Agent-based Learning of Materials Datasets from Scientific Literature

Mehrad Ansari, Seyed Mohamad Moosavi|arXiv (Cornell University)|Dec 18, 2023

Machine Learning in Materials Science被引用数 12

ひとこと要約

Eunomiaを紹介する。GPT-4を搭載した化学知識を取り入れたAIエージェントが非構造化文献から構造化された材料データセットを自動的に構築し、三つのNLP情報抽出タスクにおけるファインチューニング済みベースラインと競合的なゼロショット性能を発揮する。

ABSTRACT

Advancements in machine learning and artificial intelligence are transforming materials discovery. Yet, the availability of structured experimental data remains a bottleneck. The vast corpus of scientific literature presents a valuable and rich resource of such data. However, manual dataset creation from these resources is challenging due to issues in maintaining quality and consistency, scalability limitations, and the risk of human error and bias. Therefore, in this work, we develop a chemist AI agent, powered by large language models (LLMs), to overcome these challenges by autonomously creating structured datasets from natural language text, ranging from sentences and paragraphs to extensive scientific research articles. Our chemist AI agent, Eunomia, can plan and execute actions by leveraging the existing knowledge from decades of scientific research articles, scientists, the Internet and other tools altogether. We benchmark the performance of our approach in three different information extraction tasks with various levels of complexity, including solid-state impurity doping, metal-organic framework (MOF) chemical formula, and property relations. Our results demonstrate that our zero-shot agent, with the appropriate tools, is capable of attaining performance that is either superior or comparable to the state-of-the-art fine-tuned materials information extraction methods. This approach simplifies compilation of machine learning-ready datasets for various materials discovery applications, and significantly ease the accessibility of advanced natural language processing tools for novice users in natural language. The methodology in this work is developed as an open-source software on https://github.com/AI4ChemS/Eunomia.

研究の動機と目的

非構造化リテラチャーから構造化材料データを抽出する必要性を動機づけ、ML主導の発見を加速する。
ファインチューニングなしで機械学習用データセットを作成するため、LLMsとドメインツールを活用する自律的な化学AIエージェント（Eunomia）を開発する。
三つの徐々に難しくなる材料NLPタスクでゼロショット情報抽出性能を示す。
幻覚を減らしデータ品質を向上させるツール併用の検証を示す。
研究者や非専門家の採用を支援するオープンソースのツールとデータセットを提供する。

提案手法

推奨使用ReActの計画とツール使用機能を備えたGPT-4ベースのエージェント（Eunomia）を用いてテキストからデータを抽出する。
化学情報ツールキット（Doc Search、Dataset Search、CSV Generator）でLLMを拡張し、文献・データベース・出力の構造化を行う。
CoV（Chain-of-Verification）プロセスを実装し、事前定義済みの基準に従ってエージェント出力を反復的に検証し、幻覚を減らす。
ケーススタディ3つをファインチューニング済みLLMベースライン（LLM-NERRE）とベンチマークする。
出力を構造化データセット（CSV/JSON）として表現し、オープンソースコードとStreamlitアプリによるデプロイを提供する。

実験結果

リサーチクエスチョン

RQ1ゼロショットでツール強化されたLLMベースのエージェントは、材料科学の科学文献からNER/関連抽出データを信頼性高く抽出できるか？
RQ2単一文から論文全体まで、タスクが難しくなるにつれてEunomiaはファインチューニング済みベースラインと比較してどうなるか？
RQ3検証チェーンの技術は幻覚を減らし、抽出の正確さと産出を改善するか？
RQ4オープンソースのエージェントフレームワークの実用性と、非専門家が文献からML準備データセットを作成する際の使いやすさは？

主な発見

ケーススタディ	モデル	エンティティタイプ	適合率	再現率	F1スコア
ケーススタディ1	LLM-NERRE	ホスト	0.892	0.874	0.883
ケーススタディ1	Eunomia	ホスト	0.753	0.768	0.760
ケーススタディ1	Eunomia+CoV	ホスト	0.964	0.853	0.905
ケーススタディ1	LLM-NERRE	ドーパント	0.831	0.812	0.821
ケーススタディ1	Eunomia	ドーパント	0.859	0.788	0.822
ケーススタディ1	Eunomia+CoV	ドーパント	0.962	0.882	0.920
ケーススタディ2	LLM-NERRE	MOF式	0.409	0.455	0.424
ケーススタディ2	Eunomia	MOF式	0.623	0.589	0.606
ケーススタディ2	LLM-NERRE	ゲスト種	0.588	0.665	0.606
ケーススタディ2	Eunomia	ゲスト種	0.429	0.923	0.585
ケーススタディ3	Eunomia+CoV	MOF水安定性（三項精度）	-	-	0.91

Eunomiaは、特にChain-of-Verificationを強化すると、ケーススタディ評価でファインチューニング済みベースラインと同等またはそれを上回ることが多い。
ケーススタディ1（ホスト-to-多様なドープ剤）では、Eunomia+CoVはホストとドーパントのF1がそれぞれ0.905/0.920で、LLM-NERREを上回る。
ケーススタディ2（MOF式/ゲスト種）では、MOF式のF1がLLM-NERREの0.424に対してEunomiaが0.606へ向上；ゲスト種ではリコールは高い（0.923）が精度は低い（0.429）。
ケーススタディ3（MOF水安定性）ではCoVありで収率86.20%と三項目精度0.91；CoVなしでは精度0.86、収率82.70%へ低下。
このアプローチは、ドメイン対応ツールを用いた迅速なゼロショットデータ抽出を可能にし、注釈負担を減らし、人間を介した監視を可能にする。
すべてのデータとコードは再現性と再利用のために公開（GitHub）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。