QUICK REVIEW

[論文レビュー] Are large language models superhuman chemists?

Adrian Mirza, Nawaf Alampara|arXiv (Cornell University)|Apr 1, 2024

History and advancements in chemistry被引用数 17

ひとこと要約

この論文は ChemBench を紹介します。ChemBench は 2,788 の chemistry QA ペアからなるベンチマークで、LLM を評価します。主要モデルは平均でトップの人間の化学者を上回るが、特定の課題や信頼性のキャリブレーションにはまだ苦戦しています。

ABSTRACT

Large language models (LLMs) have gained widespread interest due to their ability to process human language and perform tasks on which they have not been explicitly trained. However, we possess only a limited systematic understanding of the chemical capabilities of LLMs, which would be required to improve models and mitigate potential harm. Here, we introduce "ChemBench," an automated framework for evaluating the chemical knowledge and reasoning abilities of state-of-the-art LLMs against the expertise of chemists. We curated more than 2,700 question-answer pairs, evaluated leading open- and closed-source LLMs, and found that the best models outperformed the best human chemists in our study on average. However, the models struggle with some basic tasks and provide overconfident predictions. These findings reveal LLMs' impressive chemical capabilities while emphasizing the need for further research to improve their safety and usefulness. They also suggest adapting chemistry education and show the value of benchmarking frameworks for evaluating LLMs in specific domains.

研究の動機と目的

標準化されたベンチマーク（ChemBench）を作成し、特性予測を超えたLLMの化学知識・推論・直感を評価する。
現在の最先端L LMが教育に合わせた広範な化学コーパスに対して専門の化学者とどのように比較されるかを評価する。
化学のサブ分野と質問タイプにわたるモデルの性能を分析し、強みとギャップを特定する。
将来の進歩を追跡し、安全で有用な化学AIシステムを促進するためのオープンで拡張可能な評価インフラストラクチャとリーダーボードを提供する。

提案手法

学部および大学院レベルの化学トピックをカバーする manual および半自動ソースから 2,788 の質問-回答ペアをキュレーションする。
化学固有のモダリティ（例：SMILES）を注釈付きトークンを用いてエンコードし、ツール補助システムをサポートする。
オープンソース・クローズドソースを含む幅広いモデルを評価し、正誤スコアリングおよびツール支援設定を厳格に適用する。
subset の質問で人間の専門家を調査し、比較ベースラインを確立し、専門家-モデルの同意を探る。
SMILES や方程式などのドメイン特有のフォーマットの処理を含む最終テキスト完了を抽出するパーシングとプロンプト設計パイプラインを実装する。

実験結果

リサーチクエスチョン

RQ1最新のLLMは専門の化学者と比較して広範な化学ベンチマークでどの程度の性能を発揮するか？
RQ2異なる化学トピックや質問タイプに対してLLMの長所と限界は何か？
RQ3モデルサイズ、ツール補助、およびドメイン特有のエンコーディングが化学的推論タスクの性能にどの程度影響するか？

主な発見

ChemBench全体で最高モデルは平均的な人間の化学者を上回る（最高モデルは人間の約2倍程度の性能）。
オープンソースモデル（例：Llama-3.1-405B-Instruct）は複数のタスクで主要な独自モデルの性能に近づく。
知識集約的な質問や特定のサブ分野（毒性/安全性、分析化学など）で性能ギャップが残り、例えばNMR信号カウントは依然難しい。
モデルの性能は分子の複雑さと一貫してスケールせず、構造推論よりも訓練データの近さに依存している可能性が示唆される。
モデルは過信的または不適切にキャリブレーションされた不確実性推定を提供することが多く、実世界での安全性と信頼性に対する懸念を引き起こします。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。