[論文レビュー] ADCNet: a unified framework for predicting the activity of antibody-drug conjugates
ADCNetは、タンパク質言語モデル(ESM-2)と小分子モデル(FG-BERT)を統合し、タンパク質配列、リンク子/ペイロードSMILES、およびDAR値からADC活性を予測する統一深層学習フレームワークであり、テスト性能が高い。
Antibody-drug conjugate (ADC) has revolutionized the field of cancer treatment in the era of precision medicine due to their ability to precisely target cancer cells and release highly effective drug. Nevertheless, the realization of rational design of ADC is very difficult because the relationship between their structures and activities is difficult to understand. In the present study, we introduce a unified deep learning framework called ADCNet to help design potential ADCs. The ADCNet highly integrates the protein representation learning language model ESM-2 and small-molecule representation learning language model FG-BERT models to achieve activity prediction through learning meaningful features from antigen and antibody protein sequences of ADC, SMILES strings of linker and payload, and drug-antibody ratio (DAR) value. Based on a carefully designed and manually tailored ADC data set, extensive evaluation results reveal that ADCNet performs best on the test set compared to baseline machine learning models across all evaluation metrics. For example, it achieves an average prediction accuracy of 87.12%, a balanced accuracy of 0.8689, and an area under receiver operating characteristic curve of 0.9293 on the test set. In addition, cross-validation, ablation experiments, and external independent testing results further prove the stability, advancement, and robustness of the ADCNet architecture. For the convenience of the community, we develop the first online platform (https://ADCNet.idruglab.cn) for the prediction of ADCs activity based on the optimal ADCNet model, and the source code is publicly available at https://github.com/idrugLab/ADCNet.
研究の動機と目的
- ADCの合理的設計を、構造と活性をより適切につなぐことを動機づける。
- タンパク質配列と小分子表現を統合した統一モデルを開発してADC活性を予測する。
- オンラインプラットフォームとオープンソースコードを提供し、コミュニティのアクセスと再現性を促進する。
提案手法
- ESM-2を用いたタンパク質表現学習とFG-BERTによる小分子表現学習を統合する。
- 抗原/抗体タンパク質配列、リンク子とペイロードのSMILES文字列、およびDR値(DAR)を入力として取り込む。
- 慎重に設計されたADCデータセットを用いて、アブレーションと外部テストを含む訓練と評価を行う。
- テストセットで精度、バランス精度、およびAUCを測定。
- 複数の指標にわたってADCNetをベースラインの機械学習モデルと比較する。
実験結果
リサーチクエスチョン
- RQ1タンパク質と小分子の埋め込みを組み合わせた統一フレームワークは、ベースラインモデルを超えるADC活性予測を実現できるか?
- RQ2モデルは異なるテスト設定と外部データでどの程度一般化するか?
- RQ3入力モダリティ(タンパク質、SMILES、DAR)の寄与は予測性能にどの程度影響するか?
主な発見
- ADCNetは平均テスト精度87.12%を達成。
- ADCNetはテストセットでバランス精度0.8689を達成。
- ADCNetはテストセットでROC曲線下面積0.9293を達成。
- 交差検証、アブレーション研究、外部テストはADCNetの堅牢性と安定性を裏付ける。
- 最適なADCNetモデルを用いたADC活性予測のオンラインプラットフォームが提供されており、ソースコードは公開されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。