[논문 리뷰] ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining
본 논문은 ChemMiner를 제시합니다. 엔드-투-엔드 LLM 기반 에이전트 시스템으로 문헌에서 고정밀 화학 반응 데이터의 자동 추출을 수행하고, 정확도, 재현율, F1 지표를 사용해 인간 전문가와의 성능을 비교합니다.
The development of AI-assisted chemical synthesis tools requires comprehensive datasets covering diverse reaction types, yet current high-throughput experimental (HTE) approaches are expensive and limited in scope. Chemical literature represents a vast, underexplored data source containing thousands of reactions published annually. However, extracting reaction information from literature faces significant challenges including varied writing styles, complex coreference relationships, and multimodal information presentation. This paper proposes ChemMiner, a novel end-to-end framework leveraging multiple agents powered by large language models (LLMs) to extract high-fidelity chemical data from literature. ChemMiner incorporates three specialized agents: a text analysis agent for coreference mapping, a multimodal agent for non-textual information extraction, and a synthesis analysis agent for data generation. Furthermore, we developed a comprehensive benchmark with expert-annotated chemical literature to evaluate both extraction efficiency and precision. Experimental results demonstrate reaction identification rates comparable to human chemists while significantly reducing processing time, with high accuracy, recall, and F1 scores. Our open-sourced benchmark facilitates future research in chemical literature data mining.
연구 동기 및 목표
- 비정형 문헌에서 화학 반응 데이터의 자동 추출을 촉진하여 재료 합성 및 약물 발견 속도를 높인다.
- 화학 문헌 환경 내에서 지각, 추론, 행동이 가능한 엔드-투-엔드 AI 에이전트를 개발한다.
- 수율, 반응물, 용매, 생성물 등 고충실도 데이터 추출을 달성하고 공참조(coreference) 문제를 해결한다.
- 표준 정보 추출 지표(정확도, 재현율, F1)를 사용하여 에이전트를 평가하고 정확성과 효율성 면에서 인간 전문가와 비교한다.
제안 방법
- 정보 추출 작업을 위해 GPT 기반 프롬프트를 반복적으로 최적화하는 다중 작업 프레임워크를 사용한다.
- 문헌에서 정확한 데이터 추출을 가능하게 하도록 핵심참조를 식별하고 전체 화합물 이름으로 매핑한다.
- 다운스트림 추출 정확도를 높이기 위해 공참조를 전체 화학 물질 이름으로 교체한다.
- 데이터 추출 작업을 위한 API-활성 다운스트림 인터페이스를 갖춘 실행 가능한 케미스트리 어시스턴트 파이프라인을 통합한다.
- 실제 정답(ground truth) 대비 추출 정확도, 재현율, F1을 평가하고 인간 전문가와의 정밀도, 비용, 속도를 비교한다.
실험 결과
연구 질문
- RQ1Can an LLM-based agent accurately extract key reaction information (yield, reagents, solvents, products) from Suzuki reaction literature?
- RQ2How does the agent perform in terms of precision, recall, and F1 compared to human chemists in data extraction tasks?
- RQ3What is the impact of coreference handling and prompt optimization on extraction quality?
주요 결과
| 카테고리 | 정밀도 | 재현율 | F1 점수 |
|---|---|---|---|
| Yield | 92.19% | 78.53% | 84.81% |
| Reactant / Reagent | 89.04% | 76.00% | 82.00% |
| Solvent | 91.90% | 75.77% | 83.06% |
| Product | 87.45% | 78.22% | 82.58% |
- Average extraction performance across 17 literature sources and 326 reactions: precision 90.14%, recall 77.13%, F1-score 83.11%.
- Yield extraction achieved 92.19% precision, 78.53% recall, 84.81% F1-score.
- Reactant / Reagent extraction achieved 89.04% precision, 76.00% recall, 82.00% F1-score.
- Solvent extraction achieved 91.90% precision, 75.77% recall, 83.06% F1-score.
- Product extraction achieved 87.45% precision, 78.22% recall, 82.58% F1-score.
- Compared with ten human chemists (manual data collection): human precision 90%, AI precision 87%, AI average cost 0.0025 USD, AI average speed 0.43 seconds vs human 288 seconds.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.