Skip to main content
QUICK REVIEW

[論文レビュー] Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models

Yin Fang, Xiaozhuan Liang|arXiv (Cornell University)|Jun 13, 2023
Machine Learning in Materials Science被引用数 38
ひとこと要約

Mol-Instructionsは、分子・タンパク質・生体分子テキスト指向タスクを網羅する大規模な生体分子指示データセットをLLM向けに提供し、複数のモデルで指示チューニングによる改善を示しています。継続的な研究のために公開され、定期的に更新されます。

ABSTRACT

Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a comprehensive instruction dataset designed for the biomolecular domain. Mol-Instructions encompasses three key components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions. Each component aims to improve the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on LLMs, we demonstrate the effectiveness of Mol-Instructions in enhancing large models' performance in the intricate realm of biomolecular studies, thus fostering progress in the biomolecular research community. Mol-Instructions is publicly available for ongoing research and will undergo regular updates to enhance its applicability.

研究の動機と目的

  • LLMのギャップを埋めるため、専用の生体分子指示データセットの作成を促す。
  • 分子指向、タンパク質指向、そして生体分子テキスト指示の3つの核となる要素を持つMol-Instructionsを構築する。
  • 複数のベースラインに対してMol-Instructionsを用いた指示チューニングの有効性をLLMで示す。
  • データセットへの公開アクセスを提供し、適用範囲を拡げるための将来の改善を概説する。

提案手法

  • 自己指示、テンプレートベースの変換、人工創作の説明を組み合わせた手法で、3つの領域にまたがる200万件超の生体分子指示を組み立てる。
  • 人間とAIの協働で、GPT-3.5-turboを用いて多様なタスク記述を生成し、手動の品質チェックを行う。
  • 標準的な生化学データベースとPubMedからデータを取得し、データマイニングとAI支援生成を通じて入力/出力、QAペア、設計指示を導出する。
  • テンプレートを用いて生物学データをテキスト形式に変換し、UniProtKBベースのタンパク質設計注釈を含め、ユーザーが指定した目的を満たす。
  • 厳密な品質管理を適用:分子のSMILESをSELFIESに置換、UniProtKBエントリを整理、類似性90%でMMseqsによりタンパク質をクラスタリングして冗長性を減らす。
  • 3つの指示ドメイン全体にわたり、LLama-7Bおよび他のベースラインで指示チューニングを用いて、トレーニング/検証/テスト分割を用いて評価する。

実験結果

リサーチクエスチョン

  • RQ1Mol-Instructionsは、ベースラインと比較して生体分子の理解と生成タスクにおけるLLMの性能を向上させるか。
  • RQ2分子指向・タンパク質指向・テキスト指向の指示は、それぞれのタスクの改善にどのように寄与するか。
  • RQ3生成されたタンパク質設計と分子記述は、既知の機能的または構造的注釈と整合するか。
  • RQ4データセット構築の選択(自動指示、テンプレート、人工作成の説明)がモデルの性能に与える影響は何か。

主な発見

  • Mol-Instructionsは、評価されたモデルと指標全体でベースラインと比較して分子理解タスクの顕著な改善をもたらす。
  • データは分子特性予測と生成タスクの性能向上を可能にし、生成された分子は参照構造への類似性が高い。
  • タンパク質関連タスクでは、チューニングされたモデルが基本的なタンパク質特徴を識別し、デノザノ設計をUniProtKB注釈と整合させる能力を示し、機能的関連性を示唆している。
  • Mol-Instructionsは、生物情報学の文脈で情報抽出やQ&Aを含む生体分子NLPタスクの性能を向上させる。
  • ドメイン特化の小型モデルと比較して、Mol-Instructionsを用いて訓練した大規模モデルは依然として専門的な生成にギャップがあるが、より広範なドメイン理解の向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。