[論文レビュー] DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations
DrugOOD はAI補助創薬のための自動OODデータセットキュレーターとベンチマークを提供し、現実的なノイズ注釈とドメイン分割を考慮した結合親和性予測に焦点を当てる。
AI-aided drug discovery (AIDD) is gaining increasing popularity due to its promise of making the search for new pharmaceuticals quicker, cheaper and more efficient. In spite of its extensive use in many fields, such as ADMET prediction, virtual screening, protein folding and generative chemistry, little has been explored in terms of the out-of-distribution (OOD) learning problem with \emph{noise}, which is inevitable in real world AIDD applications. In this work, we present DrugOOD, a systematic OOD dataset curator and benchmark for AI-aided drug discovery, which comes with an open-source Python package that fully automates the data curation and OOD benchmarking processes. We focus on one of the most crucial problems in AIDD: drug target binding affinity prediction, which involves both macromolecule (protein target) and small-molecule (drug compound). In contrast to only providing fixed datasets, DrugOOD offers automated dataset curator with user-friendly customization scripts, rich domain annotations aligned with biochemistry knowledge, realistic noise annotations and rigorous benchmarking of state-of-the-art OOD algorithms. Since the molecular data is often modeled as irregular graphs using graph neural network (GNN) backbones, DrugOOD also serves as a valuable testbed for \emph{graph OOD learning} problems. Extensive empirical studies have shown a significant performance gap between in-distribution and out-of-distribution experiments, which highlights the need to develop better schemes that can allow for OOD generalization under noise for AIDD.
研究の動機と目的
- 分布シフトとラベルノイズ下でAI補助創薬(AIDD)の堅牢な一般化を動機づける。
- ChEMBLに基づく高度にカスタマイズ可能で再現性のあるOODデータセットキュレーションパイプラインを提供する。
- 現実世界のドメインとノイズレベルを注釈付けしてモデルの現実的な評価を可能にする。
- LBAPとSBAPタスクを跨ぐ96の実現データセットで最先端のOODアルゴリズムをベンチマークする。
提案手法
- 構成可能なノイズとドメイン定義を用いてChEMBLからOODデータセットを構築する自動化データセットキュレーター。
- 生化学知識に整合した豊富なドメイン注釈を用いてターゲット指向および分子指向のドメインを定義。
- コア、リファインド、ジェネラルの三つのノイズレベルを信頼度スコア、値関係、アッセイ特性を介して注釈付け。
- グラフおよびトランスフォーマーベースのバックボーンを用いて六つのSOTAOODアルゴリズムをベンチマークするスキーム。
- リガンドベースの親和性予測(LBAP)と構造ベースの親和性予測(SBAP)の両方をサポート。
- データキュレーション、ローディング、アルゴリズム設定を自動化するオープンソースPythonパッケージの提供。
実験結果
リサーチクエスチョン
- RQ1現実的なノイズ下での分布内設定で訓練されたモデルは、未知ドメインのAIDD親和性予測に一般化できるか。
- RQ2異なるノイズレベル下での分布内ターゲットと分布外ターゲットおよびアッセイ間の性能ギャップはどれくらいか。
- RQ3LBAPおよびSBAPタスクにおいてドメインシフトとノイズラベルに直面したとき、最先端のOODアルゴリズムの有効性はどれくらいか。
- RQ4DrugOODのキュレーション済みデータは、薬剤発見におけるグラフベースのOOD学習の現実的なテストベッドとして機能するか。
主な発見
- 未知ドメインで評価する場合、OOD設定下で未見のドメイン間で評価するのに、_seen domains_と比較して性能が著しく低下する。
- コア、リファインド、ジェネラルの異なるノイズレベルはデータセットサイズとノイズ源に影響を与え、モデルの堅牢性に影響を与える。
- 最先端のOOD手法はドメインシフトとノイズ注釈の下で有効性が様々であり、AIDDにおけるノイズ下でのOOD一般化の改善の必要性を浮き彫りにしている。
- LBAPおよびSBAPベンチマークは、グラフベースおよびシーケンスベースのバックボーンを用いた親和性予測をOOD条件下で実現可能であることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。