QUICK REVIEW

[논문 리뷰] Learning to SMILE(S)

Stanisław Jastrzȩbski, Damian Leśniak|arXiv (Cornell University)|2016. 02. 19.

Computational Drug Discovery Methods인용 수 13

한 줄 요약

이 논문은 자연어 처리(NLP)에서의 딥러닝 모델, 특히 합성곱 신경망(CNN)을 분자의 원시 SMILES 문자열 표현에 직접 적용하여 리간드 기반 가상 스크리닝을 수행하는 방법을 제안한다. SMILES를 텍스트로 간주하고 CONTEXT와 같은 최신 NLP 모델을 사용함으로써, 수작업으로 만든 분자 지문보다 뛰어난 성능을 내며, 작은 데이터셋에서도 동일한 성능을 달성할 수 있었고, 분자의 활성 예측에 대한 해석 가능한 구조적 통찰을 제공한다.

ABSTRACT

This paper shows how one can directly apply natural language processing (NLP) methods to classification problems in cheminformatics. Connection between these seemingly separate fields is shown by considering standard textual representation of compound, SMILES. The problem of activity prediction against a target protein is considered, which is a crucial part of computer aided drug design process. Conducted experiments show that this way one can not only outrank state of the art results of hand crafted representations but also gets direct structural insights into the way decisions are made.

연구 동기 및 목표

딥러닝 모델이 자연어 처리에서 유래한 것으로, 원시 SMILES 문자열에 직접 적용될 수 있는지 조사한다.
이 접근 방식이 리간드 기반 가상 스크리닝에서 전통적인 수작업으로 만든 분자 지문(MACCS, KR 등)보다 우수한 성능을 내는지 평가한다.
자연어 처리의 감성 분석과 화학정보학에서의 활성 예측 간의 유사성을 탐색한다. 여기서 분자의 부분구조는 언어적 문장의 절과 유사하다.
원시 SMILES 문자열에서의 엔드 투 엔드 학습이 약물 개발에서 높은 성능과 해석 가능성 모두를 제공하는지 보여준다.

제안 방법

SMILES 문자열을 원자와 결합을 나타내는 2자리 기호로 구성된 문자 수준 토큰 시퀀스로 간주한다.
특히 CNN(CONTEXT) 및 RNN 기반 모델과 같은 최신 NLP 모델을 특성 공학 없이 원시 SMILES 문자열에 직접 적용한다.
각 분자의 경우 다수의 무작위 SMILES 워크를 생성하고 예측을 평균화함으로써 데이터 증강을 실시하여 과적합을 줄인다.
로스 손실을 주 평가 지표로 사용하여 5겹 교차 검증을 통해 모델을 훈련한다.
비시퀀스 모델(SVM, RF, NB)의 경우, 단순 토크나이제이션을 사용해 SMILES를 n-gram 표현으로 변환한다.
CNN의 입력으로 원-핫 인코딩을 사용하며, 이는 원시 텍스트 유사 분자 문자열에서 국소 패턴을 직접 학습할 수 있는 능력을 활용한다.

실험 결과

연구 질문

RQ1원시 SMILES 문자열로 훈련된 딥러닝 모델이 분자의 활성 예측에서 전통적인 수작업으로 만든 분자 지문보다 뛰어난 성능을 내는가?
RQ2자연어 처리의 감성 분석과 화학정보학에서의 리간드 기반 가상 스크리닝 간에 의미 있는 유사성이 존재하는가?
RQ3특성 공학을 거친 표현 방식보다 원시 SMILES 문자열에서의 엔드 투 엔드 학습이 더 높은 성능과 해석 가능성 제공하는가?
RQ4작은 데이터 기반 화학정보학 환경에서, SMILES 문자열에 직접 적용된 다양한 신경망 아키텍처(CNN 대 RNN)의 성능은 어떻게 다른가?

주요 결과

원시 SMILES 문자열을 사용한 CNN 모델은 5-HT1A 데이터셋에서 가장 낮은 로그 손실(0.249 ± 0.015)을 기록하며, 모든 기준 모델, 특히 최신 지문 모델을 초월했다.
CNN 모델은 모든 다섯 개의 데이터셋에서 SVM 및 랜덤 포레스트와 같은 전통적 모델보다 끈적임으로써, 원시 SMILES 처리의 효과성을 입증했다.
다양한 SMILES 워크를 통한 데이터 증강은 특히 작은 데이터셋에서 모델의 일반화 능력을 크게 향상시켰다.
CNN 모델의 성공은 국소 구조 모티프를 탐지할 수 있는 능력과 관련이 있으며, 이는 CNN이 텍스트에서 감성 유발 문구를 탐지하는 방식과 유사하다.
RNN 모델은 데이터가 제한되어 있고 SMILES 시퀀스에서 장거리 의존성을 포착하기 어려워 성능이 열등했다.
결과는 분자의 구조와 언어 문법 간의 유사성을 뒷받침하며, 부분구조가 활성에 영향을 주는 문장의 절과 유사하다는 점을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.