QUICK REVIEW

[논문 리뷰] Deep Learning Based Regression and Multi-class Models for Acute Oral Toxicity Prediction with Automatic Chemical Feature Extraction

Youjun Xu, Jianfeng Pei|arXiv (Cornell University)|2017. 04. 16.

Computational Drug Discovery Methods참고 문헌 37인용 수 23

한 줄 요약

이 연구는 종단 간 분자 그래프 인코딩을 사용하여 급성 구강 독성을 예측하기 위한 딥러닝 프레임워크 MGE-CNN을 소개한다. 외부 테스트 세트에서 R² = 0.864 및 MAE = 0.195의 최신 기술 수준 성능를 달성하며, 학습된 표현에서 해석 가능한 독성 핵을 자동으로 추출하는 특징 학습 기능을 제공한다.

ABSTRACT

For quantitative structure-property relationship (QSPR) studies in chemoinformatics, it is important to get interpretable relationship between chemical properties and chemical features. However, the predictive power and interpretability of QSPR models are usually two different objectives that are difficult to achieve simultaneously. A deep learning architecture using molecular graph encoding convolutional neural networks (MGE-CNN) provided a universal strategy to construct interpretable QSPR models with high predictive power. Instead of using application-specific preset molecular descriptors or fingerprints, the models can be resolved using raw and pertinent features without manual intervention or selection. In this study, we developed acute oral toxicity (AOT) models of compounds using the MGE-CNN architecture as a case study. Three types of high-level predictive models: regression model (deepAOT-R), multi-classification model (deepAOT-C) and multi-task model (deepAOT-CR) for AOT evaluation were constructed. These models highly outperformed previously reported models. For the two external datasets containing 1673 (test set I) and 375 (test set II) compounds, the R2 and mean absolute error (MAE) of deepAOT-R on the test set I were 0.864 and 0.195, and the prediction accuracy of deepAOT-C was 95.5% and 96.3% on the test set I and II, respectively. The two external prediction accuracy of deepAOT-CR is 95.0% and 94.1%, while the R2 and MAE are 0.861 and 0.204 for test set I, respectively.

연구 동기 및 목표

종단 간 분자 표현을 사용하여 급성 구강 독성(AOT) 예측을 위한 고성능 딥러닝 모델을 개발하기.
기존 분자 기술자표를 초월하여 자동 화학적 특징 학습이 가능한 방법을 제공하기.
학습된 필터의 역추적을 통한 활성 패턴 분석을 통해 블랙박스 딥러닝 모델의 해석 가능성 향상하기.
이 프레임워크가 급성 구강 독성 이외의 독성 및 물리화학적 성질 예측으로도 일반화 가능한지 입증하기.

제안 방법

원자들을 노드로, 결합을 간선으로 간주하는 무방향 그래프로 2차원 분자 구조를 처리하는 분자 그래프 인코딩 컨볼루션 신경망(MGE-CNN)을 제안한다.
고정된 크기의 벡터로 분자 그래프를 변환하기 위해 기초 기반 그래프 인코딩 전략을 사용한다.
세 가지 모델을 훈련한다: 회귀 모델(deepAOT-R), 다중 클래스 분류 모델(deepAOT-C), 다중 작업 모델(deepAOT-CR)로 동시에 예측 수행.
학습된 필터의 역추적을 통해 뉴런 활성화를 화학적 구조로 매핑하는 자동 특징 학습을 적용한다.
학습된 모델에서 깊이 있는 지문을 추출하여 기존 지문보다 예측 성능이 높은 얕은 머신러닝 시스템을 지원한다.
두 개의 외부 데이터셋을 사용하여 모델 성능을 검증하고, 알려진 구조적 경고(구조적 경고, TAs)에 특징를 매핑하여 해석 가능성 비교를 수행한다.

실험 결과

연구 질문

RQ1종단 간 분자 그래프 인코딩 기반 딥러닝 모델이 기존의 시뮬레이션 AOT 예측 방법보다 우월한가?
RQ2딥 네트워크 내 자동 특징 학습이 독성과 관련된 화학적으로 해석 가능한 구조를 얼마나 잘 추출할 수 있는가?
RQ3학습된 표현에서 유도된 깊이 있는 지문이 기존 분자 지문보다 후속 머신러닝 작업을 지원하는 데 어떻게 비교되는가?
RQ4모델의 내부 표현이 알려진 독성 핵 또는 구조적 경고(TAs)로 고도로 일관되게 역매핑될 수 있는가?
RQ5MGE-CNN 프레임워크는 급성 구강 독성 이외의 다른 화학적 목표 예측으로도 일반화 가능한가?

주요 결과

deepAOT-R 모델은 테스트 세트 I(1673개 화합물)에서 R² = 0.864 및 MAE = 0.195를 달성하여 이전 모델보다 유의미하게 뛰어난 성능을 보였다.
deepAOT-C 모델은 테스트 세트 I에서 95.5%의 정확도, 테스트 세트 II에서 96.3%의 정확도를 기록하여 강력한 일반화 능력을 입증했다.
다중 작업 모델인 deepAOT-CR은 테스트 세트 I에서 R² = 0.861 및 MAE = 0.204를 달성했으며, 테스트 세트 I과 II에서 각각 95.0% 및 94.1%의 분류 정확도를 확보했다.
모델에서 추출한 깊이 있는 지문은 공준 MLR 모델이 3,718개의 대규모 외부 세트에서 PCC2 = 0.696 및 MAE = 0.348의 성능을 달성하도록 지원했다.
역추적 분석을 통해 모델에서 최고로 활성화되는 특징들이 알려진 독성 핵과 일치했으며, 8개의 특징 중 8개가 보고된 구조적 경고(TAs)와 일치했다.
이 프레임워크는 모델 활성화를 원자 수준의 구조로 성공적으로 매핑했으며, 사전 화학 지식 없이도 딥러닝 모델이 높은 예측성과 해석 가능성을 동시에 확보할 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.