[論文レビュー] ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining
本論文は ChemMiner を提案します。エンドツーエンドの LLM ベースのエージェントシステムで、文献から高忠実度の化学反応データを自動的に抽出し、精度・再現率・F1 指標を用いて人間の専門家と比較します。
The development of AI-assisted chemical synthesis tools requires comprehensive datasets covering diverse reaction types, yet current high-throughput experimental (HTE) approaches are expensive and limited in scope. Chemical literature represents a vast, underexplored data source containing thousands of reactions published annually. However, extracting reaction information from literature faces significant challenges including varied writing styles, complex coreference relationships, and multimodal information presentation. This paper proposes ChemMiner, a novel end-to-end framework leveraging multiple agents powered by large language models (LLMs) to extract high-fidelity chemical data from literature. ChemMiner incorporates three specialized agents: a text analysis agent for coreference mapping, a multimodal agent for non-textual information extraction, and a synthesis analysis agent for data generation. Furthermore, we developed a comprehensive benchmark with expert-annotated chemical literature to evaluate both extraction efficiency and precision. Experimental results demonstrate reaction identification rates comparable to human chemists while significantly reducing processing time, with high accuracy, recall, and F1 scores. Our open-sourced benchmark facilitates future research in chemical literature data mining.
研究の動機と目的
- 非構造化文献から化学反応データの自動抽出を動機づけ、材料合成と薬剤発見を加速する。
- 化学文献環境内で知覚・推論・行動が可能なエンドツーエンドの AI エージェントを開発する。
- 高忠実度のデータ抽出(収率、反応物、溶媒、生成物)を実現し、共参照の課題に対処する。
- 標準的な情報抽出指標(精度、再現率、F1)を用いてエージェントを評価し、正確性と効率性の点で人間の専門家と比較する。
提案手法
- GPT ベースのプロンプトを情報抽出タスク用に反復的に最適化するマルチタスクフレームワークを使用する。
- 共参照の識別と完全な化学名へのマッピングを用いて、文献からの正確なデータ抽出を可能にする。
- 共参照を完全な化学名に置換して下流の抽出精度を改善する。
- データ抽出タスクのための API 対応の下流インターフェースと実行可能な化学アシスタントパイプラインを統合する。
- ground truth に対して抽出の精度、再現率、F1 を評価し、人間の専門家と比較して精度、コスト、速度を比較する。
実験結果
リサーチクエスチョン
- RQ1 Suzuki 反応文献から主要な反応情報(収率、反応物、溶媒、生成物)を LLM ベースのエージェントが正確に抽出できるか?
- RQ2 データ抽出タスクにおけるエージェントの精度、再現率、F1 は、人間の化学者と比較してどうか?
- RQ3 共参照処理とプロンプト最適化が抽出品質に与える影響は何か?
主な発見
| カテゴリ | 適合率 | 再現率 | F1スコア |
|---|---|---|---|
| 収率 | 92.19% | 78.53% | 84.81% |
| 出発反応物 / 試薬 | 89.04% | 76.00% | 82.00% |
| 溶媒 | 91.90% | 75.77% | 83.06% |
| 生成物 | 87.45% | 78.22% | 82.58% |
- 文献17件、反応326件の平均抽出性能:精度90.14%、再現率77.13%、F1スコア83.11%。
- 収率抽出は精度92.19%、再現率78.53%、F1スコア84.81%を達成。
- 反応物/試薬抽出は精度89.04%、再現率76.00%、F1スコア82.00%を達成。
- 溶媒抽出は精度91.90%、再現率75.77%、F1スコア83.06%を達成。
- 生成物抽出は精度87.45%、再現率78.22%、F1スコア82.58%を達成。
- 人間の化学者10名との比較( manual データ収集):人間の精度90%、AIの精度87%、AIの平均コスト0.0025 USD、AIの平均速度0.43秒対 humans 288秒。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。