QUICK REVIEW

[논문 리뷰] SMILES2Vec: An Interpretable General-Purpose Deep Neural Network for Predicting Chemical Properties

Garrett B. Goh, Nathan O. Hodas|arXiv (Cornell University)|2017. 12. 05.

Computational Drug Discovery Methods인용 수 93

한 줄 요약

SMILES2Vec는 SMILES에서 직접 특징을 학습하여 화학적 특성을 예측하는 심층 RNN으로, 해석 가능한 설명 마스크를 갖고, 다양한 작업에서 엔지니어링된 특징 MLP 모델보다 우수한 성능을 보일 수 있다.

ABSTRACT

Chemical databases store information in text representations, and the SMILES format is a universal standard used in many cheminformatics software. Encoded in each SMILES string is structural information that can be used to predict complex chemical properties. In this work, we develop SMILES2vec, a deep RNN that automatically learns features from SMILES to predict chemical properties, without the need for additional explicit feature engineering. Using Bayesian optimization methods to tune the network architecture, we show that an optimized SMILES2vec model can serve as a general-purpose neural network for predicting distinct chemical properties including toxicity, activity, solubility and solvation energy, while also outperforming contemporary MLP neural networks that uses engineered features. Furthermore, we demonstrate proof-of-concept of interpretability by developing an explanation mask that localizes on the most important characters used in making a prediction. When tested on the solubility dataset, it identified specific parts of a chemical that is consistent with established first-principles knowledge with an accuracy of 88%. Our work demonstrates that neural networks can learn technically accurate chemical concept and provide state-of-the-art accuracy, making interpretable deep neural networks a useful tool of relevance to the chemical industry.

연구 동기 및 목표

SMILES 문자열을 활용하여 손으로 만든 특징 없이 화학적 특성을 예측한다.
다중 특성(독성, 활성, 용해도, 용매화 에너지)에 대해 범용 딥 뉴럴 네트워크를 개발한다.
SMILES의 중요한 문자를 국소화하는 설명 마스크를 통해 해석 가능성을 제공한다.
베이지안 최적화가 SMILES 기반 예측에 효과적인 아키텍처를 낳는지 시연한다.

제안 방법

SMILES 문자열을 딥 RNN(SMILES2Vec)에 입력되는 시퀀스로 표현하여 예측 특징을 학습한다.
독성, 활성, 용해도, 용매화 에너지 등 다양한 특성 데이터셋에서 학습 및 평가한다.
엔지니어링된 특징을 사용하는 다층 퍼셉트론(MLP)과 성능을 비교한다.
네트워크 아키텍처를 조정하기 위해 베이지안 최적화를 사용한다.
영향력 있는 SMILES 문자를 국소화하고 해석 가능성을 검증하기 위한 설명 마스크를 도입한다(용해도 관련 설명에서 88% 정확도).

실험 결과

연구 질문

RQ1SMILES2Vec가 다양한 화학적 특성에 대해 SMILES에서 직접 정확한 예측 특징을 학습할 수 있는가?
RQ2베이지안 최적화된 SMILES2Vec 아키텍처가 엔지니어링 특징 기반 MLP 베이스라인보다 우수한가?
RQ3해석 가능성 마스크가 예측에 관여하는 화학적으로 의미 있는 부분구조를 신뢰성 있게 식별할 수 있는가?
RQ4용해도 데이터셋에서 설명 마스크의 화학 지식 검증 정확도는 얼마나 되는가(제시된 88% 정확도)?

주요 결과

최적화된 SMILES2Vec 모델은 독성, 활성, 용해도 및 용매화 에너지를 예측하기 위한 범용 NN으로 작동한다.
SMILES2Vec은 엔지니어링된 특징에 의존하는 현대적 MLP 신경망보다 우수하다.
설명 마스크는 예측에 관여하는 중요한 SMILES 문자를 국소화하여 해석 가능성을 보여준다.
용해도 데이터셋에서 마스크는 첫 원리 지식과 일치하는 관련 화학 부분을 88% 정확도로 식별한다.
이 연구는 신경망이 화학적으로 의미 있는 개념을 학습하면서 최첨단 정확도를 달성할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.