[論文レビュー] GP-MoLFormer: A Foundation Model For Molecular Generation
GP-MoLFormerは、46.8Mパラメータを持つ自己回帰型SMILES生成モデルで、0.65–1.1Bの正準化SMILESで学習し、記憶化とデータバイアスを分析し、3つの分子生成タスク全体でスキャフォールド装飾と性質駆動最適化を条件付けるペアチューニングを適用する。
Transformer-based models trained on large and general purpose datasets consisting of molecular strings have recently emerged as a powerful tool for successfully modeling various structure-property relations. Inspired by this success, we extend the paradigm of training chemical language transformers on large-scale chemical datasets to generative tasks in this work. Specifically, we propose GP-MoLFormer, an autoregressive molecular string generator that is trained on more than 1.1B (billion) chemical SMILES. GP-MoLFormer uses a 46.8M parameter transformer decoder model with linear attention and rotary positional encodings as the base architecture. GP-MoLFormer's utility is evaluated and compared with that of existing baselines on three different tasks: de novo generation, scaffold-constrained molecular decoration, and unconstrained property-guided optimization. While the first two are handled with no additional training, we propose a parameter-efficient fine-tuning method for the last task, which uses property-ordered molecular pairs as input. We call this new approach pair-tuning. Our results show GP-MoLFormer performs better or comparable with baselines across all three tasks, demonstrating its general utility for a variety of molecular generation tasks. We further report strong memorization of training data in GP-MoLFormer generations, which has so far remained unexplored for chemical language models. Our analyses reveal that training data memorization and novelty in generations are impacted by the quality and scale of the training data; duplication bias in training data can enhance memorization at the cost of lowering novelty. We further establish a scaling law relating inference compute and novelty in generations.
研究の動機と目的
- スケールと学習データのバイアスが大規模な化学言語モデルの記憶化と生成に与える影響を理解する。
- スケールでのデノボ分子生成の品質と多様性を実証する。
- パラメータ効率の高いチューニング手法を用いて、スキャフォールド制約付きの装飾と制約なしの性質指向最適化を評価する。
- データのデデュプリケーションが化学言語モデルの新規性と記憶化に与える影響について実践的な洞察を提供する。
提案手法
- 12層、12ヘッド、隠れ層サイズ768、線形アテンションを用いたデコーダーのみのトランスフォーマーモデル。
- SMILESトークンの依存関係をモデル化するためにロータリーポジショナルエンベディングを使用。
- 過去の文脈を与えて次のトークンを予測する自己回帰的因果言語モデリング目標。
- 公開データベースから0.65–1.1Bの正準化SMILESで事前学習。
- 学習データの品質と生成プールサイズの変化による記憶化と新規性の評価。
- ペア-tuning: 生成を性質最適化分子へと条件付けするための enhancement tokens を学習するプロンプトチューニング法(全モデル微調整なし)。
実験結果
リサーチクエスチョン
- RQ1学習データサイズとデデュプリケーションが大規模な生成化学言語モデルの記憶化と新規性に与える影響はどのようになるか?
- RQ2GP-MoLFormerは億規模の生成プールで新規で有効かつ多様な分子を生成できるか?
- RQ3GP-MoLFormerはデノボ生成、スキャフォールド制約付き装飾、制約なしの性質指向最適化でベースラインと競合できるか?
- RQ4ペア-tuningは全モデル微調整なしで効率的な性質最適化を可能にするか?
主な発見
| Training Size | Generation Size | Novel | Unique | Valid |
|---|---|---|---|---|
| 650M | 30k | 0.323 | 0.997 | 0.997 |
| 650M | 100k | 0.326 | 0.998 | 0.998 |
| 650M | 1M | 0.323 | 0.996 | 0.997 |
| 650M | 10M | 0.322 | 0.989 | 0.997 |
| 1.1B | 30k | 0.323 | 0.997 | 0.997 |
| 1.1B | 100k | 0.326 | 0.998 | 0.998 |
| 1.1B | 1M | 0.323 | 0.996 | 0.997 |
| 1.1B | 10M | 0.322 | 0.956 | 0.997 |
- GP-MoLFormerは最大10億分子を生成しても新規で有効なSMILESを生成でき、生成プール全体で99%が有効である。
- 新規性は生データで約32%、デデュプリケーション後(Clean)では新規性がわずかに増加し約7–8%高くなる。
- 10M世代時のRawの新規性は0.322、Cleanは新規性にわずかな増加をもたらす一方、記憶化は訓練データへの完全一致率が高く、最大60%に達する。
- データのデデュプリケーションは記憶化バイアスを減少させ、データマニフォールド内の特定分子の過剰表現を減らすことで新規性を高める。
- GP-MoLFormerはデノボ生成、スキャフォールド制約付き装飾、および制約なしの性質最適化でベースラインと同等以上の成果を達成。
- ペア-tuningは有効化 penalized logP、QED、DRD2活性化の最適化において、全微調整なしで競争力または優れた結果を実現。複数のベースラインとのテーブル付き比較を含むデモを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。