[論文レビュー] Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language
CLAMP は、モジュール型アーキテクチャを採用し、分子エンコーダとテキストエンコーダを別々に用い、クロスモーダルコントラスト学習で訓練し、テキストの生物活性アッセイ記述を条件にゼロショットおよび少数ショットの活性予測を可能にする。
Activity and property prediction models are the central workhorses in drug discovery and materials sciences, but currently they have to be trained or fine-tuned for new tasks. Without training or fine-tuning, scientific language models could be used for such low-data tasks through their announced zero- and few-shot capabilities. However, their predictive quality at activity prediction is lacking. In this work, we envision a novel type of activity prediction model that is able to adapt to new prediction tasks at inference time, via understanding textual information describing the task. To this end, we propose a new architecture with separate modules for chemical and natural language inputs, and a contrastive pre-training objective on data from large biochemical databases. In extensive experiments, we show that our method CLAMP yields improved predictive performance on few-shot learning benchmarks and zero-shot problems in drug discovery. We attribute the advances of our method to the modularized architecture and to our pre-training objective.
研究の動機と目的
- 薬剤発見における自然言語による生物活性アッセイの記述を活用してゼロショット活性予測に取り組む動機づけと課題の設定。
- 分子構造だけまたは生物医学テキストだけに依存する単一モダリティモデルの限界を克服する。
- テキストを介した推論時のタスク条件付けを可能にし、データ効率の高い予測を向上させる。
- 化学データでのコントラスト学習を用いた2モジュールアーキテクチャが転移可能な埋め込みを生み出すことを示す。
提案手法
- 入力を共有埋め込み空間へ写像する分子エンコーダ f(m) とテキストエンコーダ g(a) を備えた2エンコーダアーキテクチャを提案する。
- 埋め込みを活性分子–アッセイペアで近づけ、非活性ペアを引き離す対照学習目的 L_NCE を用いる。
- 埋め込みのドット積の指数 form に基づくスコアリング関数 k(m,a) を定義して活性を予測する。
- 埋め込みを跨モーダル転送を可能にするよう、大規模な化学データベースをテキストの生物活性アッセイ記述で拡張して事前学習を行う。
- 有効な構成を特定するため、 descriptor ベースの分子エンコーダやさまざまな NLP モデルを含む複数の候補分子エンコーダとテキストエンコーダを試す。
実験結果
リサーチクエスチョン
- RQ1分子と語を分けたモジュール型アーキテクチャは見たことのないアッセイに対してゼロショット活性予測を達成できるか?
- RQ2化学データベースでのクロスモーダル対照事前学習は少数ショットおよびゼロショットの創薬タスクを改善する表現を生み出すか?
- RQ3エンコーダの選択(分子 vs テキスト)がゼロショット転送と表現品質に与える影響は?
- RQ4CLAMP は標準的なベースラインのゼロショットおよび少数ショットと比較してどうか?
主な発見
- CLAMP は複数のデータセットと分割においてゼロショット活性予測でベースラインを大幅に上回る。
- 分子エンコーダとクロスモーダル対照事前学習を備えたモジュラーアーキテクチャは、少数ショットおよびゼロショットの性能を改善する転移可能な表現を生み出す。
- SMILES トークン化を用いた単独の SLM は CLAMP および基線 FH に比べていくつかのゼロショットタスクで劣る。
- descriptor ベースの分子エンコーダはこのゼロショット/少数ショット設定でグラフベースや SMILES ベースのエンコーダより優れることがある。
- 表現学習のテスト全体で、CLAMP は平均パフォーマンスが最高で、いくつかのデータセットで強い結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。