Skip to main content
QUICK REVIEW

[論文レビュー] Deep Motif Dashboard: Visualizing and Understanding Genomic Sequences Using Deep Neural Networks

Jack Lanchantin, Ritambhara Singh|arXiv (Cornell University)|Aug 12, 2016
Genomics and Chromatin Dynamics参考文献 15被引用数 25
ひとこと要約

本稿では、salienyマップ、時系列出力スコア、クラス固有最適化を用いて、転写因子結合部位(TFBS)分類のための深層ニューラルネットワーク(DNN)モデルを解釈する可視化ツールキット「Deep Motif Dashboard(DeMo Dashboard)」を紹介する。CNN-RNNアーキテクチャが他のモデルを上回り、可視化によりモチーフと長距離依存性の両方を捉えていることが明らかになった。これは、転写因子が特定のゲノム配列に結合する理由を解明する手がかりを提供する。

ABSTRACT

Deep neural network (DNN) models have recently obtained state-of-the-art prediction accuracy for the transcription factor binding (TFBS) site classification task. However, it remains unclear how these approaches identify meaningful DNA sequence signals and give insights as to why TFs bind to certain locations. In this paper, we propose a toolkit called the Deep Motif Dashboard (DeMo Dashboard) which provides a suite of visualization strategies to extract motifs, or sequence patterns from deep neural network models for TFBS classification. We demonstrate how to visualize and understand three important DNN models: convolutional, recurrent, and convolutional-recurrent networks. Our first visualization method is finding a test sequence's saliency map which uses first-order derivatives to describe the importance of each nucleotide in making the final prediction. Second, considering recurrent models make predictions in a temporal manner (from one end of a TFBS sequence to the other), we introduce temporal output scores, indicating the prediction score of a model over time for a sequential input. Lastly, a class-specific visualization strategy finds the optimal input sequence for a given TFBS positive class via stochastic gradient optimization. Our experimental results indicate that a convolutional-recurrent architecture performs the best among the three architectures. The visualization techniques indicate that CNN-RNN makes predictions by modeling both motifs as well as dependencies among them.

研究の動機と目的

  • ゲノム分野における深層ニューラルネットワーク(DNN)の解釈可能性の課題、特にTFBS分類における課題を解決すること。
  • 研究者がDNNが転写因子結合について特定の予測を行う『理由』を理解するのを支援する可視化ツールキットを開発すること。
  • TFBS分類において、畳み込みニューラルネットワーク(CNN)、再帰的ニューラルネットワーク(RNN)、およびCNN-RNNの3つのDNNアーキテクチャの性能と解釈可能性を比較すること。
  • モチーフマッチングツールを用いて、各モデルの内部表現が既知の生物学的モチーフとどの程度一致するかを評価すること。
  • DNNの可視化が、従来のモチーフ探索ツールが見逃す可能性のあるモチーフ間の長距離依存性を明らかにできることを示すこと。

提案手法

  • 予測に最も影響を与えるヌクレオチドを強調表示するため、1階微分を用いたsalienyマップを生成する。
  • 時系列出力スコアは、順序付き入力におけるモデルの予測信頼度の推移を追跡し、配列内の重要な位置を特定する。
  • クラス固有の可視化は、正のTFBSクラスの最適入力配列を生成するために確率的勾配最適化を用いる。
  • ツールキットは、畳み込みニューラルネットワーク(CNN)、再帰的ニューラルネットワーク(RNN)、およびハイブリッドCNN-RNNモデルの3つのアーキテクチャを評価する。
  • 可視化から得られたモチーフと既知のJASPARモチーフを比較するためにTomtomを用いてモチーフマッチングを実施する。
  • 性能評価は、57個のTFデータセットにおけるAUCスコアとモチーフマッチング精度を用いて行う。

実験結果

リサーチクエスチョン

  • RQ1CNN、RNN、CNN-RNNの中でのTFBS分類における最良のDNNアーキテクチャはどれであり、その理由は何か?
  • RQ2salienyマップと時系列出力スコアは、ゲノム配列分類におけるDNNの意思決定プロセスをどのように明らかにするか?
  • RQ3クラス固有最適化は、既知の転写因子結合パターンと一致する生物学的に意味のあるモチーフをどの程度生成できるか?
  • RQ4可視化技術は、従来のモチーフ探索ツールが見逃す可能性のあるモチーフ間の長距離依存性を解明できるか?
  • RQ5DNNから可視化されたモチーフは、JASPARデータベースに登録された既存のモチーフとどの程度一致するか?

主な発見

  • CNN-RNNアーキテクチャが3つのモデルの中で最高のAUCスコアを達成し、TFBS分類タスクにおいてCNNおよびRNNを上回った。
  • salienyマップにより、CNN-RNNが困難な配列(NFYB)において2つの異なる領域に注目していることが判明し、これがCNNおよびRNNが失敗したのに対し、CNN-RNNが正しく分類できた理由を説明できた。
  • 時系列出力スコアは、モデルが既知のJASPARモチーフ付近で予測を負から正に切り替える様子を示し、結合の重要な位置を特定した。
  • クラス最適化により、既知のモチーフに類似した配列が生成された。CNNは明確なモチーフ様パターンを生成したが、CNN-RNNは複雑な依存関係を捉えていた。
  • Tomtomを用いたモチーフマッチングの結果、CNNが最も正確にモチーフを抽出した(57個のTF中19件)、次にCNN-RNN(13件)、RNN(11件)であった。
  • 結果から、CNNはモチーフ検出において優れている一方で、CNN-RNNの強みはモチーフ間の依存関係をモデル化できることにあり、これが全体的な優れた性能に寄与していると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。