[論文レビュー] What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks
本論文は five LLMs (GPT-4, GPT-3.5, Davinci-003, Llama, Galactica) を eight chemistry tasks でベンチマークし、理解、推論、説明能力を評価する。結果として GPT-4 は概ね他を上回るが、SMILES-heavy な生成タスクには苦戦する。
Large Language Models (LLMs) with strong abilities in natural language processing tasks have emerged and have been applied in various kinds of areas such as science, finance and software engineering. However, the capability of LLMs to advance the field of chemistry remains unclear. In this paper, rather than pursuing state-of-the-art performance, we aim to evaluate capabilities of LLMs in a wide range of tasks across the chemistry domain. We identify three key chemistry-related capabilities including understanding, reasoning and explaining to explore in LLMs and establish a benchmark containing eight chemistry tasks. Our analysis draws on widely recognized datasets facilitating a broad exploration of the capacities of LLMs within the context of practical chemistry. Five LLMs (GPT-4, GPT-3.5, Davinci-003, Llama and Galactica) are evaluated for each chemistry task in zero-shot and few-shot in-context learning settings with carefully selected demonstration examples and specially crafted prompts. Our investigation found that GPT-4 outperformed other models and LLMs exhibit different competitive levels in eight chemistry tasks. In addition to the key findings from the comprehensive benchmark analysis, our work provides insights into the limitation of current LLMs and the impact of in-context learning settings on LLMs' performance across various chemistry tasks. The code and datasets used in this study are available at https://github.com/ChemFoundationModels/ChemLLMBench.
研究の動機と目的
- eight practical tasks (understanding, reasoning, and explaining) における化学分野の large language models の能力を評価する。
- five prominent LLMs を用いた zero-shot および few-shot in-context learning を評価する。
- domain-specific baselines に対する強み、弱み、タスク依存のパフォーマンスを特定する。
- 化学と prompting 戦略において研究者と化学者が LLM を活用するための実用的な指針を提供する。
提案手法
- PubChem、BBBP、Tox21、HIV、BACE、USPTO、ChEBI などのデータセットを用いて eight chemistry tasks をベンチマークする。
- GPT-4、GPT-3.5、Davinci-003、Llama、Galactica の five LLMs を zero-shot および few-shot prompting の下で評価する。
- 幻覚を減らすためにデモと four-part テンプレートを用いたタスク固有の in-context learning prompts を設計する。
- ICL retrieval strategies(Random vs. Scaffold)と vary ing k demonstration examples を調査する。
- モデルのランダム性を考慮して評価を five_times に繰り返し、mean と variance を報告する。
実験結果
リサーチクエスチョン
- RQ1zero-shot および few-shot prompting の下で eight chemistry tasks における異なる LLM の比較的パフォーマンスはどのようか。
- RQ2prompt design、demonstration quality、ICL retrieval strategies が化学における LLM の性能にどのような影響を与えるか。
- RQ3どの化学タスクが LLM に最も適しているか、あるいはタスク固有のベースラインを必要とするか。
- RQ4化学表現(例:SMILES)を扱う際の LLM の主な制限と幻覚モードは何か。
主な発見
- GPT-4 は一般に他の評価対象モデルを上回る。
- GPT モデルは SMILES-heavy なタスク(名前予測、反応予測、リトロセンス設計)に苦戦する。
- 性質や収率の予測は LLM によって競争力がある、または選択的に競争力がある場合があり、時に特定のベースラインを上回る。
- テキストベースの生成タスク(分子設計とキャプション付け)は定性的・定量的なパフォーマンスが高いが、完全一致は限られる。
- SELFIES 表現はこれらの LLM にとって SMILES よりも低パフォーマンスであり、トレーニングデータが SMILES に偏っている可能性がある。
- in-context learning は zero-shot より性能を向上させ、scaffold-based retrieval は random sampling よりも優れることが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。