QUICK REVIEW

[論文レビュー] Deep Learning Based Regression and Multi-class Models for Acute Oral Toxicity Prediction with Automatic Chemical Feature Extraction

Youjun Xu, Jianfeng Pei|arXiv (Cornell University)|Apr 16, 2017

Computational Drug Discovery Methods参考文献 37被引用数 23

ひとこと要約

本研究では、エンドツーエンドの分子グラフ符号化を用いた深層学習フレームワーク、MGE-CNNを提案し、急性経口毒性（AOT）を予測する。外部テストセットにおいて、R² = 0.864およびMAE = 0.195の最先端の性能を達成するとともに、学習された表現から解釈可能なトキシコフォリック断片を抽出する自動特徴抽出を可能にした。

ABSTRACT

For quantitative structure-property relationship (QSPR) studies in chemoinformatics, it is important to get interpretable relationship between chemical properties and chemical features. However, the predictive power and interpretability of QSPR models are usually two different objectives that are difficult to achieve simultaneously. A deep learning architecture using molecular graph encoding convolutional neural networks (MGE-CNN) provided a universal strategy to construct interpretable QSPR models with high predictive power. Instead of using application-specific preset molecular descriptors or fingerprints, the models can be resolved using raw and pertinent features without manual intervention or selection. In this study, we developed acute oral toxicity (AOT) models of compounds using the MGE-CNN architecture as a case study. Three types of high-level predictive models: regression model (deepAOT-R), multi-classification model (deepAOT-C) and multi-task model (deepAOT-CR) for AOT evaluation were constructed. These models highly outperformed previously reported models. For the two external datasets containing 1673 (test set I) and 375 (test set II) compounds, the R2 and mean absolute error (MAE) of deepAOT-R on the test set I were 0.864 and 0.195, and the prediction accuracy of deepAOT-C was 95.5% and 96.3% on the test set I and II, respectively. The two external prediction accuracy of deepAOT-CR is 95.0% and 94.1%, while the R2 and MAE are 0.861 and 0.204 for test set I, respectively.

研究の動機と目的

エンドツーエンドの分子表現を用いた急性経口毒性（AOT）予測のための高精度な深層学習モデルの開発。
従来の分子記述子の限界を克服し、自動的な化学的特徴学習を可能にする。
学習済み活性化パターンのリバースマイニングを用いて、ブラックボックス型の深層学習モデルの解釈性を向上させる。
本フレームワークが急性経口毒性以外の毒性および物理化学的性質の予測にも一般化可能であることを示す。

提案手法

2次元分子構造をノード（原子）とエッジ（結合）として扱う無向グラフとして扱う分子グラフ符号化畳み込みニューラルネットワーク（MGE-CNN）を提案。
分子グラフを固定長のベクトルに変換するためのシンクベースのグラフ符号化戦略を用いる。
回帰モデル（deepAOT-R）、多クラス分類モデル（deepAOT-C）、および同時予測が可能なマルチタスクモデル（deepAOT-CR）を3つ訓練。
学習済みフィルタのリバースマイニングにより、ニューロンの活性化を化学的サブ構造にマッピングする自動特徴学習を適用。
訓練済みモデルからディープフィンガープrintを抽出し、従来のフィンガープrintよりも高い予測性能を持つ、簡易機械学習システムを支援。
2つの外部データセットを用いてモデルの性能を検証し、既知の構造的アラート（TAs）への特徴マッピングによる解釈性を比較。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの分子グラフ符号化に基づく深層学習モデルは、既存のインシリコAOT予測手法を上回る性能を示すか？
RQ2深層ニューラルネットワークにおける自動特徴学習が、毒性関連の化学的に解釈可能なサブ構造をどの程度抽出できるか？
RQ3学習済み表現から導出されたディープフィンガープリントは、従来の分子フィンガープリントと比較して、下流の機械学習タスクをどの程度効果的に支援するか？
RQ4モデルの内部表現を、高い一貫性をもって既知のトキシコフォアや構造的アラート（TAs）にリバースマッピングできるか？
RQ5MGE-CNNフレームワークは、急性経口毒性を超えた他の化学的指標予測にも一般化可能か？

主な発見

deepAOT-Rモデルは、テストセットI（1673化合物）においてR² = 0.864およびMAE = 0.195を達成し、先行モデルを著しく上回った。
deepAOT-Cモデルは、テストセットIで95.5%、テストセットIIで96.3%の予測正確性を示し、優れた一般化性能を示した。
マルチタスクのdeepAOT-CRモデルは、テストセットIでR² = 0.861およびMAE = 0.204を達成し、分類正確性はそれぞれテストセットIで95.0%、テストセットIIで94.1%であった。
モデルから抽出したディープフィンガープリントを用いることで、コンSENSUS MLRモデルが3,718化合物からなる大規模な外部セットでPCC2 = 0.696およびMAE = 0.348を達成した。
リバースマイニングにより、モデルで最も高い活性化を示した特徴が、既知のトキシコフォアに対応しており、8/8の断片が報告済みの構造的アラート（TAs）と一致した。
本フレームワークは、モデルの活性化を原子レベルの断片にマッピングすることに成功し、事前の化学的知識がなくても、深層学習モデルが高い予測性能と解釈可能性を併せ持てる可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。