Skip to main content
QUICK REVIEW

[論文レビュー] Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction

Zhifeng Gao, Xiaohong Ji|arXiv (Cornell University)|Apr 24, 2023
Computational Drug Discovery Methods被引用数 10
ひとこと要約

Uni-QSAR は 1D SMILES トークン、2D グラフ、3D コンフォマーを大規模事前学習と組み合わせて分子特性を予測する Auto-ML QSAR ツールで、TDC の 22 件中 21 件で最先端を達成。

ABSTRACT

Recently deep learning based quantitative structure-activity relationship (QSAR) models has shown surpassing performance than traditional methods for property prediction tasks in drug discovery. However, most DL based QSAR models are restricted to limited labeled data to achieve better performance, and also are sensitive to model scale and hyper-parameters. In this paper, we propose Uni-QSAR, a powerful Auto-ML tool for molecule property prediction tasks. Uni-QSAR combines molecular representation learning (MRL) of 1D sequential tokens, 2D topology graphs, and 3D conformers with pretraining models to leverage rich representation from large-scale unlabeled data. Without any manual fine-tuning or model selection, Uni-QSAR outperforms SOTA in 21/22 tasks of the Therapeutic Data Commons (TDC) benchmark under designed parallel workflow, with an average performance improvement of 6.09\%. Furthermore, we demonstrate the practical usefulness of Uni-QSAR in drug discovery domains.

研究の動機と目的

  • 多視点の分子表現(1D トークン、2D グラフ、3D コンフォマー)と大規模事前学習を統合して堅牢な QSAR モデルを構築する。
  • 手動のハイパーパラメータチューニングやモデル選択を一切必要としない Auto-ML パイプラインを開発する。
  • 自己教師あり事前学習と効率的な並列ワークフローを活用して ADMET/TDC ベンチマークの性能を向上させる。
  • CNS 薬物発見での実用的有用性を示し、主要コンポーネントを検証するためのアブレーションを検討する。

提案手法

  • 1D SMILES ベースのトークン、2D トポロジーグラフ、および 3D コンフォマーを事前学習モデルと結合して分子表現学習 (MRL) を行う。
  • 伝統的なフィンガープリント(Morgan)とデスクリプタをニューラル表現とともに事前情報として組み込む。
  • 歪んだターゲットにわたる回帰を安定化させるために自動ターゲット正規化を用いる。
  • 1D/2D/3D 入力から多様なベース学習器をアンサンブルするために二段階スタッキングを用いた自動スタッキングを実装する。
  • モデル選択とハイパーパラメータ調整を自動化するために Dflow 上のベイズ最適化駆動ワークフローを使用する。
  • 二段階スタッキングによるアンサンブルと、最終レベルでの単純平均を加えて最終性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1手動チューニングを回避しつつ、1D/2D/3D 表現と事前学習を共同利用して分子特性予測を改善できるか?
  • RQ2不均衡または歪んだ ADMET データセットに対して、オートスタッキングとターゲット正規化が予測性能にどう影響するか?
  • RQ3タスク全体にわたる QSAR 性能に対する 3D 事前学習(Uni-Mol)の寄与はどの程度か?
  • RQ4並列 Dflow ベースのワークフローは精度を犠牲にすることなく訓練とリソース利用を加速できるか?
  • RQ5Uni-QSAR は CNS 薬剤富化のような実践的な創薬タスクに一般化できるか?

主な発見

  • Uni-QSAR は 22 件中 21 件の Therapeutic Data Commons (TDC) タスクで最先端を上回り、平均改善率は 6.09% である。
  • 純粋な 3D 事前学習モデル(Uni-Mol)はアブレーションで平均性能を大幅に向上させる。
  • オートスタッキングとオートターゲット正規化は、特に歪んだターゲットにおいて最終性能に有意に寄与する。
  • CNS 薬物タスクでは、Uni-QSAR はベースラインと比較して強い富化と外部検証性能を示す。
  • Borihum を用いた並列ワークフローは訓練を加速し、実験で約 2 倍のスピードアップを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。