Skip to main content
QUICK REVIEW

[論文レビュー] Technical Note on Transcription Factor Motif Discovery from Importance Scores (TF-MoDISco) version 0.5.6.5

Avanti Shrikumar, Katherine Tian|arXiv (Cornell University)|Oct 31, 2018
Genomics and Phylogenetic Studies参考文献 10被引用数 176
ひとこと要約

TF-MoDISco 0.5.6.5 は、ニューラルネットワークがベースごとの重要度スコアから学習したパターンを統合して、重複のない転写因子モチーフを生成するモチーフ発見手法を導入します。仮説的重要性をサポートし、分散表現を明確なモチーフに圧縮する多段階クラスタリングパイプラインを強調します。

ABSTRACT

TF-MoDISco (Transcription Factor Motif Discovery from Importance Scores) is an algorithm for identifying motifs from basepair-level importance scores computed on genomic sequence data. This technical note focuses on version v0.5.6.5. The implementation is available at https://github.com/kundajelab/tfmodisco/tree/v0.5.6.5

研究の動機と目的

  • 各ベースの重要度スコアからモデル予測に大きく寄与する seqlet を識別する。
  • タスクを横断して seqlets を寄与パターンの異なる metaclusters にクラスタリングする。
  • メタクラスター内で seqlets をサブクラスター化してモチーフレベルの表現を形成する。
  • seqlets をモチーフへ統合し、境界を整えて解釈しやすいモチーフを作出する。
  • ゲノム配列のための頑健で分散表現対応のモチーフ発見フレームワークを提供する。

提案手法

  • 高寄与度を持つ seqlets を識別するために、仮想的重要性を含む各ベースの重要度スコアを入力として用いる。
  • Phase 1: スライディングウィンドウ重要度によって seqlets を同定し、虚無分布を適合させる(経験的または Laplace)、FDR を計算し、重複しない seqlets へ展開する;タスク間で統合する。
  • メタクラスタリング: 各タスクのスコアを比較可能に変換し、活動パターンを定義し、seqlets をパターンに割り当てる;最小メタクラスタ―サイズと特異性でフィルタリング。
  • Phase 2: 粗いギャップ付きk-mer埋め込みと結合した実際の重要度と仮説的重要度に対する高精度 Continuous Jaccard 類似度を用いてペアワイズ affinities を計算;アフィニティの相関でノイズの多い seqlets をフィルタリング。
  • Cluster seqlets with Louvain or Leiden community detection, using a density-adaptive distance transformation inspired by t-SNE and a consensus approach for Louvain.
  • Phase 3: クラスター内の seqlets を、最良の Continuous Jaccard 類似度整合性で貪欲にマージしてモチーフへ統合し、境界編集(トリム、拡張、中心化)で統一長さに整え、メタクラスタの活動パターンと一致しないモチーフを破棄する。
  • Provide optional second round of seqlet clustering to improve motif quality and stability.

実験結果

リサーチクエスチョン

  • RQ1各ベースの重要度スコアからモデル予測に大きく寄与する seqlet を、どのように識別できるか?
  • RQ2複数のタスクにまたがる seqlets を、異なるパターンを表す整合的なメタクラスタにどのようにクラスタリングできるか?
  • RQ3関連タスクに基づいてモチーフ表現を洗練させるため、メタクラスタ内でサブクラスタリングをどのように実行できるか?
  • RQ4複数の seqlets を、厳密な境界を持つ頑健で解釈可能なモチーフへ統合するにはどうすればよいか?
  • RQ5不自然なマージを防ぎ、モチーフとパターンの整合性を確保する堅牢な後処理手順とは何か?

主な発見

  • 重要度スコアから統合された非冗長モチーフを識別するための TF-MoDISco バージョン 0.5.6.5 を導入。
  • 実際の重要度スコアと仮説的重要度スコアを組み合わせてモチーフ発見を強化することを説明。
  • 連続的 Jaccard 類似度指標を提案して seqlets を比較し、粗い親和性推定のためのギャップ付き k-mer 埋め込みを提案。
  • Louvain(コンセンサス付き)または Leiden を用いた密度適応クラスタリングパイプラインをモチーフクラスタリングに提示。
  • モチーフの統合、境界編集、誤合併を防ぎモチーフ-パターンの整合性を確保する是正的な後処理ステップを概説。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。