QUICK REVIEW

[논문 리뷰] PaccMann: Prediction of anticancer compound sensitivity with multi-modal attention-based neural networks

Ali Oskooei, Jannis Born|arXiv (Cornell University)|2018. 11. 16.

Computational Drug Discovery Methods참고 문헌 28인용 수 27

한 줄 요약

PaccMann은 SMILES로 인코딩된 분자 구조, 간암세포의 유전자 발현 프로필, 단백질-단백질 상호작용 네트워크를 통합하여 암세포에 대한 항암제 민감도를 예측하는 다중모달, 주의 기반 딥러닝 프레임워크를 소개한다. 원시 SMILES를 사용하는 주의 메커니즘을 통한 피처 기반 기준 모델보다 우수한 예측 성능(평균 절대 오차 0.11)을 달성하며, 예측에 영향을 미치는 핵심 원자, 결합 및 유전자를 해석 가능한 방식으로 특정할 수 있다.

ABSTRACT

We present a novel approach for the prediction of anticancer compound sensitivity by means of multi-modal attention-based neural networks (PaccMann). In our approach, we integrate three key pillars of drug sensitivity, namely, the molecular structure of compounds, transcriptomic profiles of cancer cells as well as prior knowledge about interactions among proteins within cells. Our models ingest a drug-cell pair consisting of SMILES encoding of a compound and the gene expression profile of a cancer cell and predicts an IC50 sensitivity value. Gene expression profiles are encoded using an attention-based encoding mechanism that assigns high weights to the most informative genes. We present and study three encoders for SMILES string of compounds: 1) bidirectional recurrent 2) convolutional 3) attention-based encoders. We compare our devised models against a baseline model that ingests engineered fingerprints to represent the molecular structure. We demonstrate that using our attention-based encoders, we can surpass the baseline model. The use of attention-based encoders enhance interpretability and enable us to identify genes, bonds and atoms that were used by the network to make a prediction.

연구 동기 및 목표

분자 구조, 유전자 발현 및 단백질 상호작용 데이터를 동시에 사용하여 암세포에 대한 복합체 민감도를 예측하는 다중모달 딥러닝 모델을 개발하는 것.
공학된 화학 피처 지문을 원시 SMILES 문자열에서 엔드 투 엔드로 학습된 표현으로 대체하여 일반화 및 해석 가능성 향상.
주의 메커니즘을 통해 핵심 원자, 결합 및 유전자를 식별함으로써 모델의 해석 가능성 향상.
모델의 성능을 엄격한 평가 프로토콜을 통해 미리 보지 않은 약물-세포 쌍에 대해 검증하여 강건성과 일반화 능력 확보.
주의 기반 인코더가 SMILES 및 유전자 발현에 적용되었을 때 기존 RNN, CNN 및 피처 기반 기준 모델보다 우월한 성능을 보이는지 입증하는 것.

제안 방법

모델는 세 가지 입력을 처리하는 다중모달 아키텍처를 사용한다: 화합물의 SMILES 문자열, 간암세포의 유전자 발현 프로필, STRING 기반 단백질-단백질 상호작용(PPI) 네트워크.
SMILES 인코딩을 위해 세 가지 아키텍처를 평가한다: 양방향 RNN, 1차원 컨볼루션 네트워크, 그리고 자기주의(SA) 및 공주의(SA) 메커니즘을 통한 계층적 표현 학습.
유전자 발현 프로필은 개별 유전자에 가중치를 할당하는 주의 기반 메커니즘을 사용하여 예측에 가장 기여하는 요소를 강조한다.
모델는 모든 세 가지 모odal의 표현을 피드포워드 네트워크를 통해 융합하여 IC50 값을 예측하며, 손실은 평균 절대 오차를 최소화하는 방식으로 최적화된다.
주의 가중치는 원자 수준(SMILES에서)과 유전자 수준(전사체에서)에서 계산되어 모델 결정의 해석 가능성을 보장한다.
엄격한 평가 프로토콜을 통해 훈련 데이터에서 모든 검증 및 테스트 약물-세포 쌍을 제외하여 데이터 泄漏 방지.

실험 결과

연구 질문

RQ1원시 SMILES 문자열에서 엔드 투 엔드 주의 기반 학습이 기존 피처 기반 모델보다 암세포에 대한 항암제 민감도 예측에서 우월한가?
RQ2유전자 발현 프로필에 주의 메커니즘이 적용되었을 때, 모델의 해석 가능성과 예측 성능는 어느 정도 향상되는가?
RQ3주의 기반 SMILES 인코더는 약물 민감도와 관련된 화학적으로 의미 있는 기능(예: 기능기, 원자)을 식별하는가?
RQ4동일한 기관에서 유래한 암세포 라인 간에 유전자 주의 가중치는 어떻게 변화하며, 이는 알려진 생물학적 경로를 반영하는가?
RQ5PPI 네트워크의 통합은 유전자 발현과 분자 구조 외부에서 예측 성능 향상에 기여하는가?

주요 결과

공주의(CA) 모델가 가장 뛰어난 성능을 보였으며, 미리 보지 않은 약물-세포 쌍에서 평균 절대 오차 0.11을 기록하여 피처 기반 기준 모델을 뛰어넘었다.
주의 기반 SMILES 인코더(SA 및 CA)는 RNN 및 CNN 인코더보다 우수한 성능를 보였으며, 이는 원자 수준의 특징이 순차적 또는 컨볼루션 패턴보다 더 예측력이 높다는 것을 시사한다.
Tipifarnib에서 염소 원자와 아미드 기능기(-NH2)가 높은 가중치를 가지며, 이는 알려진 약리포어와 일치한다.
EIF2A 및 CBR3와 같은 상위 가중치를 가진 유전자는 다양한 신장암 세포 라인에서 일관되게 강조되었으며, 생물학적 관련성을 시사한다.
높은 주의 가중치를 가진 유전자는 JAK-STAT 신호 전달 경로에서 유의미하게 풍부하게 발견되었으며, 이는 암 치료에서 알려진 표적 경로임을 반영한다.
주의 메커니즘이 핵심 분자 및 유전적 특징의 해석 가능한 식별을 가능하게 하여 생물학적 타당성과 모델의 투명성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.