[논문 리뷰] Developing ChemDFM as a large language foundation model for chemistry
ChemDFM-13B는 도메인 프리트레이닝으로 34B 화학 토큰을 학습하고 지시 튜닝을 통해 화학 전용 추론을 강화한 화학 전문 대화 기초모델로, 많은 작업에서 GPT-4를 능가하고 오픈소스 LLM과도 여전히 경쟁력을 유지합니다.
Artificial intelligence (AI) has played an increasingly important role in chemical research. However, most models currently used in chemistry are specialist models that require training and tuning for specific tasks. A more generic and efficient solution would be an AI model that could address many tasks and support free-form dialogue in the broad field of chemistry. In its utmost form, such a generalist AI chemist could be referred to as Chemical General Intelligence. Large language models (LLMs) have recently logged tremendous success in the general domain of natural language processing, showing emerging task generalization and free-form dialogue capabilities. However, domain knowledge of chemistry is largely missing when training general-domain LLMs. The lack of such knowledge greatly hinders the performance of generalist LLMs in the field of chemistry. To this end, we develop ChemDFM, a pioneering LLM for chemistry trained on 34B tokens from chemical literature and textbooks, and fine-tuned using 2.7M instructions. As a result, it can understand and reason with chemical knowledge in free-form dialogue. Quantitative evaluations show that ChemDFM significantly surpasses most representative open-source LLMs. It outperforms GPT-4 on a great portion of chemical tasks, despite the substantial size difference. We have open-sourced the inference codes, evaluation datasets, and model weights of ChemDFM on Huggingface (https://huggingface.co/OpenDFM/ChemDFM-v1.0-13B).
연구 동기 및 목표
- 화학 연구와 대화 기반 협업(CGI)을 지원하기 위한 화학 전용 대형 언어 모델 개발의 필요성을 제고한다.
- 도메인 특화 데이터(논문, 교과서)와 분자 표상(SMILES)을 활용해 화학 지식과 추론을 주입한다.
- 일반 언어 능력을 보존하면서도 화학 분야의 자유 형식 대화를 위한 화학 언어 이해를 확보한다.
제안 방법
- 두 단계의 전문화: 화학이 풍부한 코퍼스(논문 및 교과서)와 일반 도메인 데이터를 이용한 도메인 프리트레이닝; Megatron-DeepSpeed로 LLaMa-13B의 사전 학습을 계속한다.
- 화학 언어 패턴, 특히 SMILES와 분자 표기법에 중점을 둔 지시 튜닝으로, 다양한 대화 형식 데이터셋(MD, TBMD, MPP, RC, MNA, QA, 시험)으로 구성하고 각 작업마다 다중 프롬프트를 제공하며 GPT-4로 재구성했다.
- 지시 단계에서 전체 매개변수 튜닝을 수행하고 화학 도메인 데이터와 일반 도메인 데이터를 약 1:2의 비율로 혼합해 광범위한 언어 능력을 보존한다.
- 데이터셋 구성 요소에는 SMILES 이해력(MD, TBMD, MPP, RC, MNA)과 자연어 화학 QA, 분자 표기법 번역 및 다중 모달 언어 고려 사항이 포함된다.
실험 결과
연구 질문
- RQ1자유 형식 대화에서 화학Notation(SMILES, IUPAC 이름, 화학식) 이해를 포함해 다양한 화학 작업을 수행하도록 대형 언어 모델을 전문화할 수 있는가?
- RQ2화학 중심 LLM이 화학 벤치마크에서 작업별 모델 및 일반ist LLM과 일치하거나 능가할 수 있는 정도는 어느 정도인가?
- RQ3도메인 특화 프리트레이닝과 지시 튜닝의 통합이 화학 연구 시나리오에서 효과적인 인간-AI 협업을 가능하게 하는가?
주요 결과
| 모델 | bace | bbb p | CT | HIV | T21 |
|---|---|---|---|---|---|
| Uni-Mol | 85.7 | 72.9 | 91.9 | 80.8 | 79.6 |
| MolXPT | 88.4 | 80.0 | 95.3 | 78.1 | 77.1 |
| InstructMol | 85.9 | 64.0 | - | 74.0 | - |
| GPT-4 | 62.5 | 61.5 | 51.6 | 65.9 | 55.2 |
| LLaMa-2-13B-chat | 26.0 | 60.3 | 45.7 | 29.0 | 51.7 |
| Galactica (30B) | 72.7 | 59.6 | 82.2 | 75.9 | 68.5 |
| ChemDFM-13B | 78.4 | 66.7 | 89.9 | 73.6 | 79.8 |
- ChemDFM-13B는 화학 벤치마크(ChemLLMBench 및 SciEval)에서 대표적인 오픈 소스 LLM보다 상당히 우수하게 나타난다.
- 분자 인식 작업에서 ChemDFM은 최고 수준의 이름 예측 및 분자 자막화 성능을 달성하며, 일부 이름 예측 작업에서 GPT-4를 능가하기도 한다.
- 분자 특성 예측(MoleculeNet 태스크, scaffold-vertical 분할)에서 ChemDFM-13B는 GPT-4 및 LLaMa-2-13B-chat과 같은 LLM 기본 모델보다 더 높은 AUC-ROC를 달성한다.
- 텍스트 기반 분자 설계에서 ChemDFM은 대부분의 지표에서 오픈 소스 LLM 및 다수의 전문 모델을 능가한다.
- ChemDFM은 반응 예측 및 역합성 작업에서 강한 성능을 보이며, 많은 작업에서 오픈 소스 LLM을 능가하거나 GPT-4에 근접하거나 능가하는 경우가 많다.
- SciEval 결과 화학 분야에서 오픈 소스 LLM 중 최상의 성능을 보이고 생물학 및 물리학에서도 경쟁력 있는 결과를 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.