Skip to main content
QUICK REVIEW

[論文レビュー] OmicsMapNet: Transforming omics data to take advantage of Deep Convolutional Neural Network for discovery

Shiyong Ma, Zhen Zhang|arXiv (Cornell University)|Apr 14, 2018
Bioinformatics and Genomic Networks参考文献 62被引用数 26
ひとこと要約

OmicsMapNet は、KEGG BRITE などの機能的・階層的関係を用いて、高次元のオミックスデータを 2D 画像風の表現に変換し、深層畳み込みニューラルネットワーク(CNN)の適用を可能にする。この手法は、膠腫瘍の腫瘍グレード(LGG 対 GBM)分類において高い精度を達成し、CNN の解釈可能性を用いて機能的に関連する分子特徴を同定した。これは、生物学的知識を深層学習に統合するための新しいフレームワークを示している。

ABSTRACT

We developed OmicsMapNet approach to take advantage of existing deep leaning frameworks to analyze high-dimensional omics data as 2-dimensional images. The omics data of individual samples were first rearranged into 2D images in which molecular features related in functions, ontologies, or other relationships were organized in spatially adjacent and patterned locations. Deep learning neural networks were trained to classify the images. Molecular features informative of classes of different phenotypes were subsequently identified. As an example, we used the KEGG BRITE database to rearrange RNA-Seq expression data of TCGA diffuse glioma samples as treemaps to capture the functional hierarchical structure of genes in 2D images. Deep Convolutional Neural Networks (CNN) were derived using tools from TensorFlow to learn the grade of TCGA LGG and GBM samples with relatively high accuracy. The most contributory features in the trained CNN were confirmed in pathway analysis for their plausible functional involvement.

研究の動機と目的

  • 高次元のオミックスデータと深層学習の間のギャップを埋めるために、生物学的関係を保持する 2D 表現にデータを変換すること。
  • 機能オントロジーに基づく分子特徴の空間的配置を活用して、深層畳み込みニューラルネットワーク(CNN)がオミックスデータから学習できるようにすること。
  • 腫瘍グレードなどの表現型分類に寄与する生物学的に意味のある特徴を同定すること。
  • 経路解析を用いて同定された特徴の機能的妥当性を検証し、生物学的妥当性を保証すること。
  • 画像ベースの深層学習が複雑な疾患におけるマルチオミックス探索に実用的かつ効果的であることを示すこと。

提案手法

  • 個々のサンプルのオミックスデータ(例:RNA-Seq)が、KEGG BRITE パスウェイなどの階層的機能的アノテーションを用いて、生物学的に関連する遺伝子を空間的に配置することで 2D 画像に再構成される。
  • 得られた 2D 表現は、分子特徴間の階層的および機能的関係を保持するトゥリーマップとして構造化される。
  • TensorFlow から事前学習された深層畳み込みニューラルネットワーク(CNN)が、これらのオミックスマップ風の画像から表現型クラス(例:LGG 対 GBM)を分類するために微調整される。
  • 分類に寄与する特徴の重要度は、トレーニング済みの CNN から活性化マップおよび勾配ベースのセイリエンシー技術を用いて抽出される。
  • 同定された特徴は、経路の豊富さ解析を用いて相互に検証され、表現型に関連する機能的妥当性が確認される。
  • 同じ変換および学習パイプラインを再利用することで、異なるオミックスタイプおよび表現型分類への転送学習と一般化が可能となる。

実験結果

リサーチクエスチョン

  • RQ1高次元のオミックスデータは、生物学的機能的関係を保持する 2D 画像表現に効果的に変換可能か?
  • RQ2これらの 2D オミックスマップでトレーニングされた深層畳み込みニューラルネットワークは、膠腫瘍グレードのような複雑な表現型を正確に分類可能か?
  • RQ3CNN が同定した最も影響力のある特徴は、膠腫瘍形成に関連する既知の生物学的経路に対応しているか?
  • RQ4生物学的知識(例:KEGG BRITE)をデータ表現に統合することで、マルチオミックス解析における深層学習モデルの解釈性と性能が向上するか?
  • RQ5提案手法は、異なるオミックスデータタイプおよび表現型分類に一般化可能か?

主な発見

  • OmicsMapNet は、RNA-Seq データを 2D トゥリーマップ表現に変換することで、TCGA の膠腫瘍サンプルを低悪性度膠腫瘍(LGG)と膠芽腫(GBM)に分類する際、高い精度を達成した。
  • トレーニング済みの CNN が同定した最も寄与度の高い特徴は、既知のがん関連経路に豊富に存在し、それらが膠腫瘍形成に機能的に関連していることを確認した。
  • KEGG BRITE の階層的構造を活用してオミックス特徴を空間的に配置することで、CNN が機能的関係の複雑なパターンを検出できるようになった。
  • トレーニング済みの CNN のセイリエンシー マップは、特定の遺伝子や経路が分類の主要な駆動要因であることを強調しており、生物学的解釈可能性を裏付けた。
  • 生物学的文脈を空間的データ構造に組み込むことで、深層学習モデルがオミックスデータに効果的に適用可能であることが示された。
  • 本フレームワークは、生物学的知識を深層学習に統合するためのスケーラブルで解釈可能なパイプラインを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。