[論文レビュー] Scientific Large Language Models: A Survey on Biological & Chemical Domains
この調査は生物学および化学分野に焦点を当てた科学的大規模言語モデル(Sci-LLMs)を系統的にレビューし、テキスト、分子、タンパク質、ゲノム、およびマルチモーダルLLM、アーキテクチャ、データ、評価、課題を扱う。
Large Language Models (LLMs) have emerged as a transformative power in enhancing natural language comprehension, representing a significant stride toward artificial general intelligence. The application of LLMs extends beyond conventional linguistic boundaries, encompassing specialized linguistic systems developed within various scientific disciplines. This growing interest has led to the advent of scientific LLMs, a novel subclass specifically engineered for facilitating scientific discovery. As a burgeoning area in the community of AI for Science, scientific LLMs warrant comprehensive exploration. However, a systematic and up-to-date survey introducing them is currently lacking. In this paper, we endeavor to methodically delineate the concept of "scientific language", whilst providing a thorough review of the latest advancements in scientific LLMs. Given the expansive realm of scientific disciplines, our analysis adopts a focused lens, concentrating on the biological and chemical domains. This includes an in-depth examination of LLMs for textual knowledge, small molecules, macromolecular proteins, genomic sequences, and their combinations, analyzing them in terms of model architectures, capabilities, datasets, and evaluation. Finally, we critically examine the prevailing challenges and point out promising research directions along with the advances of LLMs. By offering a comprehensive overview of technical developments in this field, this survey aspires to be an invaluable resource for researchers navigating the intricate landscape of scientific LLMs.
研究の動機と目的
- 生物学および化学分野における科学言語とSci-LLMsの概念を定義し、形式化する。
- 既存のText-Sci-LLMs、Mol-LLMs、Prot-LLMs、Genomic-LLMs、MM-Sci-LLMsをアーキテクチャ、データ、評価とともに調査する。
- 科学言語モデリングで用いられるデータセット、ベンチマーク、評価基準を要約する。
- Sci-LLMsにおける主要な課題を特定し、今後の研究の方向性を提案する。
提案手法
- Sci-LLMsをエンコーダ専用、デコーダ専用、エンコーダ-デコーダのアーキテクチャに分類する。
- テキストおよびドメイン固有コーパスの事前学習とファインチューニングに使用されるデータセットをレビューする。
- テキスト、分子、タンパク質、ゲノム、マルチモーダル設定におけるモデルの能力と下流タスクを整理する。
- 科学言語(分子、タンパク質、ゲノム)がLLMによってどのように表現・処理されるかを評価する。
- 限界を総合し、マルチモーダルSci-LLMsの進展に向けた方向性を提案する。
実験結果
リサーチクエスチョン
- RQ1生物学および化学におけるSci-LLMsにとって最も効果的なアーキテクチャと訓練パラダイムは何か?
- RQ2テキストおよびドメイン固有のSci-LLMsの進歩を促すデータセットとベンチマークは何か?
- RQ3Mol-LLMs、Prot-LLMs、Genomic-LLMs、およびMM-Sci-LLMsは能力と評価の点でどのように比較されるか?
- RQ4マルチモーダルな科学言語モデリングの主な課題と今後の方向性は何か?
主な発見
- 本調査はテキスト、分子、タンパク質、ゲノム、マルチモーダル領域にわたるSci-LLMsの構造化された分類法を提供する。
- モデルファミリー、データセット、評価ベンチマークを整理し、Sci-LLMsの事前学習とファインチューニングがどのように実施されるかを明確にする。
- 科学言語(分子、タンパク質、ゲノム)の独自の表現と文法が自然言語と異なることを強調する。
- データ入手性、モダリティ間の整合性、科学的タスクの評価における重要な課題を特定する。
- マルチモーダル統合やドメイン固有の評価基準を含む有望な方向性を論じる。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。