Skip to main content
QUICK REVIEW

[論文レビュー] Convolutional neural network models for cancer type prediction based on gene expression

Milad Mostavi, Yu‐Chiao Chiu|arXiv (Cornell University)|Jun 18, 2019
Gene expression and cancer classification参考文献 33被引用数 24
ひとこと要約

本研究では、がんゲノムアーカイブ(TCGA)データを用いて、非構造化遺伝子発現データからがん種を予測するため、1D-CNN、2D-Vanilla-CNN、2D-Hybrid-CNNモデルを提案する。これらのモデルは34クラス(33種のがん種と正常)で93.9–95.0%の正確度を達成し、ガイド付きサリエンシー解析により2,090個のがんマーカーを同定した。GATA3 や ESR1 といった既知のマーカーを含み、乳がんの分子サブタイピングへの応用では88.42%の正確度を達成した。

ABSTRACT

Background Precise prediction of cancer types is vital for cancer diagnosis and therapy. Important cancer marker genes can be inferred through predictive model. Several studies have attempted to build machine learning models for this task however none has taken into consideration the effects of tissue of origin that can potentially bias the identification of cancer markers. Results In this paper, we introduced several Convolutional Neural Network (CNN) models that take unstructured gene expression inputs to classify tumor and non-tumor samples into their designated cancer types or as normal. Based on different designs of gene embeddings and convolution schemes, we implemented three CNN models: 1D-CNN, 2D-Vanilla-CNN, and 2D-Hybrid-CNN. The models were trained and tested on combined 10,340 samples of 33 cancer types and 731 matched normal tissues of The Cancer Genome Atlas (TCGA). Our models achieved excellent prediction accuracies (93.9-95.0%) among 34 classes (33 cancers and normal). Furthermore, we interpreted one of the models, known as 1D-CNN model, with a guided saliency technique and identified a total of 2,090 cancer markers (108 per class). The concordance of differential expression of these markers between the cancer type they represent and others is confirmed. In breast cancer, for instance, our model identified well-known markers, such as GATA3 and ESR1. Finally, we extended the 1D-CNN model for prediction of breast cancer subtypes and achieved an average accuracy of 88.42% among 5 subtypes. The codes can be found at https://github.com/chenlabgccri/CancerTypePrediction.

研究の動機と目的

  • 特徴工学の前処理を一切行わず、非構造化遺伝子発現データからがん種を予測する深層学習モデルの開発。
  • モデルアーキテクチャに遺伝子発現パターンを直接統合することで、がんマーカー同定における臓器由来バイアスを是正すること。
  • ガイド付きサリエンシーなどの解釈可能性技術を用いて生物学的に意味のあるがんマーカー遺伝子を同定すること。
  • 1D-CNNモデルを拡張し、高精度に乳がんの分子サブタイピングを予測すること。

提案手法

  • 1D-CNN、2D-Vanilla-CNN、2D-Hybrid-CNNの3つの畳み込みニューラルネットワークアーキテクチャを採用し、それぞれが生の遺伝子発現ベクトルを処理できるように設計した。
  • 遺伝子埋め込みを用いて遺伝子発現プロファイルを入力テンソルに変換し、階層的パターンを学習可能にした。
  • 1次元および2次元畳み込みを適用し、サンプルおよび遺伝子の両軸で遺伝子発現データの局所的および空間的パターンを捉えた。
  • モデルの意思決定を解釈し、各がん種の重要遺伝子を同定するために、ガイド付きバックプロパゲーションのサリエンシー地図を用いた。
  • TCGAの33種のがん種から得た10,340例のがん組織および731例の正常組織を統合したデータセットを用いて、モデルを学習および評価した。
  • 1D-CNNモデルを乳がんサブタイピングに拡張し、5つの分子サブタイピングを予測するマルチクラス分類ヘッドを採用した。

実験結果

リサーチクエスチョン

  • RQ1特徴選択を前処理として行わず、非構造化遺伝子発現データから直接がん種を分類できるか、畳み込みニューラルネットワーク(CNN)の有効性は何か。
  • RQ21Dと2Dの異なるCNNアーキテクチャ(1D対2D)および埋め込み戦略が、多クラスのがん予測における分類性能に与える影響は何か。
  • RQ3解釈可能性技術(例:ガイド付きサリエンシー)を用いることで、既知のものや新規のがんマーカー遺伝子を生物学的に意味のあるものとして同定できるか。
  • RQ41D-CNNモデルは、乳がんサブタイピングのようなより細分化された分類タスクにどの程度一般化できるか。
  • RQ5同定されたマーカー遺伝子は、がん種ごとの既知の発現差動パターンとどの程度一貫性を示すか。

主な発見

  • 1D-CNNモデルは、遺伝子発現データから34クラス(33種のがん種と正常)を分類する際、最高のテスト正確度95.0%を達成した。
  • 2D-Hybrid-CNNモデルは94.5%の高い正確度を示し、2次元畳み込み層とグローバルプーリングの組み合わせの利点を裏付けた。
  • ガイド付きサリエンシー解析により、2,090個のがんマーカー(1がん種あたり約108個)が同定され、既知の発現差動パターンと強い一致を示した。
  • 乳がんにおいて、GATA3 や ESR1 といったよく知られたマーカーが的確に同定され、生物学的妥当性が裏付けられた。
  • 拡張された1D-CNNモデルは、乳がんの5つの分子サブタイピングを予測する際、平均88.42%の正確度を達成した。
  • モデルは、遺伝子発現プロファイルからがん特異的パターンを直接学習することで、臓器由来バイアスに対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。