[논문 리뷰] Convolutional neural network models for cancer type prediction based on gene expression
이 연구는 1D-CNN, 2D-Vanilla-CNN, 및 2D-Hybrid-CNN 모델을 제안하여 The Cancer Genome Atlas (TCGA) 데이터를 사용해 비정형 유전자 발현 데이터에서 종양 유형을 예측한다. 각 모델은 34개 클래스(33종의 종양 유형 및 정상)에서 93.9–95.0%의 정확도를 달성하였으며, 가이드드 샐리언시 분석을 통해 기존에 알려진 마커인 GATA3 및 ESR1를 포함한 총 2,090개의 종양 마커를 특정하였다. 또한 유방암 분자아형 예측으로의 확장은 88.42%의 정확도를 달성하였다.
Background Precise prediction of cancer types is vital for cancer diagnosis and therapy. Important cancer marker genes can be inferred through predictive model. Several studies have attempted to build machine learning models for this task however none has taken into consideration the effects of tissue of origin that can potentially bias the identification of cancer markers. Results In this paper, we introduced several Convolutional Neural Network (CNN) models that take unstructured gene expression inputs to classify tumor and non-tumor samples into their designated cancer types or as normal. Based on different designs of gene embeddings and convolution schemes, we implemented three CNN models: 1D-CNN, 2D-Vanilla-CNN, and 2D-Hybrid-CNN. The models were trained and tested on combined 10,340 samples of 33 cancer types and 731 matched normal tissues of The Cancer Genome Atlas (TCGA). Our models achieved excellent prediction accuracies (93.9-95.0%) among 34 classes (33 cancers and normal). Furthermore, we interpreted one of the models, known as 1D-CNN model, with a guided saliency technique and identified a total of 2,090 cancer markers (108 per class). The concordance of differential expression of these markers between the cancer type they represent and others is confirmed. In breast cancer, for instance, our model identified well-known markers, such as GATA3 and ESR1. Finally, we extended the 1D-CNN model for prediction of breast cancer subtypes and achieved an average accuracy of 88.42% among 5 subtypes. The codes can be found at https://github.com/chenlabgccri/CancerTypePrediction.
연구 동기 및 목표
- 사전 특징 엔지니어링 없이 비정형 유전자 발현 데이터로부터 암 유형을 예측할 수 있는 딥러닝 모델을 개발하는 것.
- 모델 아키텍처에 직접적으로 유전자 발현 패턴을 통합하여 종양 마커 규명 시 조직 기원 편향을 고려하는 것.
- 가이드드 샐리언시와 같은 해석 가능성 기법을 통해 생물학적으로 관련성이 있는 암 마커 유전자를 식별하는 것.
- 높은 정확도로 유방암의 분자아형을 예측할 수 있도록 모델을 확장하는 것.
제안 방법
- 원시 유전자 발현 벡터를 처리하도록 설계된 3가지 컨볼루션 신경망 아키텍처(1D-CNN, 2D-Vanilla-CNN, 2D-Hybrid-CNN)를 활용하였다.
- 모델이 계층적 패턴을 학습할 수 있도록, 유전자 발현 프로파일을 입력 텐서로 표현하기 위해 유전자 임베딩을 사용하였다.
- 샘플과 유전자 간의 국소적 및 공간적 패턴을 캡처하기 위해 1D 및 2D 컨볼루션을 적용하였다.
- 모델 결정을 해석하고 각 암 유형에 중요한 유전자를 식별하기 위해 가이드드 백프로파게이션 샐리언시 맵을 활용하였다.
- TCGA에서 확보한 33종의 종양 유형에서 총 10,340개의 종양 조직 및 731개의 정상 조직 샘플을 통합한 데이터셋을 기반으로 모델을 훈련 및 평가하였다.
- 1D-CNN 모델을 확장하여 다중 클래스 분류 헤드를 사용해 유방암의 다섯 가지 분자아형을 예측하는 데 활용하였다.
실험 결과
연구 질문
- RQ1사전 특징 선택 없이도 컨볼루션 신경망이 비정형 유전자 발현 데이터에서 암 유형을 효과적으로 분류할 수 있는가?
- RQ2다양한 CNN 아키텍처(1D 대비 2D)와 임베딩 전략이 다중 클래스 암 예측 성능에 어떤 영향을 미치는가?
- RQ3가이드드 샐리언시와 같은 해석 가능성 기법이 생물학적으로 관련성이 있는 기존 및 신규 암 마커 유전자를 식별할 수 있는가?
- RQ41D-CNN 모델이 더 세분화된 분류 과제, 예를 들어 유방암 아형 예측과 같은 데 얼마나 일반화되는가?
- RQ5식별된 마커 유전자들이 다양한 암 유형 간에 알려진 상대적 발현 패턴과 얼마나 일관된가?
주요 결과
- 1D-CNN 모델은 유전자 발현 데이터로부터 34개 클래스(33종의 종양 유형 및 정상)를 분류하는 데 있어 최고의 테스트 정확도 95.0%를 기록하였다.
- 2D-Hybrid-CNN 모델은 94.5%의 높은 정확도를 보이며, 2D 컨볼루션 레이어와 글로벌 풀링을 조합함으로써 성능 향상을 입증하였다.
- 가이드드 샐리언시 분석을 통해 총 2,090개의 암 마커(약 108개/암 유형)를 특정하였으며, 기존에 알려진 상대적 발현 패턴과 강한 일치를 보였다.
- 유방암에서는 GATA3 및 ESR1와 같이 잘 알려진 마커를 성공적으로 식별하여 생물학적 관련성을 검증하였다.
- 확장된 1D-CNN 모델은 유방암의 다섯 가지 분자아형을 예측하는 데 평균 88.42%의 정확도를 달성하였다.
- 모델들은 유전자 발현 프로파일에서 직접 종양 특이적 패턴을 학습함으로써 조직 기원 편향에 대해 강건함을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.