QUICK REVIEW
[论文解读] Technical Note on Transcription Factor Motif Discovery from Importance Scores (TF-MoDISco) version 0.5.6.5
Avanti Shrikumar, Katherine Tian|arXiv (Cornell University)|Oct 31, 2018
Genomics and Phylogenetic Studies参考文献 10被引用 176
一句话总结
TF-MoDISco 0.5.6.5 引入一种基序发现方法,它从每碱基重要性分数中聚合神经网络学习到的模式,生成非冗余的转录因子基序。它强调支持假设重要性和多阶段聚类流程,以将分布式表示汇聚为清晰的基序。
ABSTRACT
TF-MoDISco (Transcription Factor Motif Discovery from Importance Scores) is an algorithm for identifying motifs from basepair-level importance scores computed on genomic sequence data. This technical note focuses on version v0.5.6.5. The implementation is available at https://github.com/kundajelab/tfmodisco/tree/v0.5.6.5
研究动机与目标
- 从每碱基重要性分数中识别对模型预测有实质贡献的 seqlets。
- 将跨任务的 seqlets 聚类成具有不同贡献模式的元簇。
- 在元簇内对子簇(seqlets)进行子聚类,以形成基序级表示。
- 将 seqlets 聚合成基序并细化边界,使基序清晰且可解释。
- 提供一个鲁棒的、面向分布式表示的基因组序列基序发现框架。
提出的方法
- 将每碱基重要性分数(包括假设重要性)用作输入以识别高贡献的 seqlets。
- 阶段1:通过滑动窗口重要性识别 seqlets,拟合原假设分布(经验分布或拉普拉斯分布),计算假发现率(FDR),并扩展以形成不重叠的 seqlets;跨任务进行合并。
- 元聚类:将每任务的分数转换为可比较的形式,定义活动模式,并将 seqlets 指派到模式;按最小元簇大小和特异性进行筛选。
- 阶段2:使用粗粒度间隙k-mer嵌入和对实际与假设重要性结合后的细粒度连续 Jaccard 相似性,计算 seqlet 间的成对亲和力;通过亲和力相关性筛除嘈杂 seqlets。
- 用 Louvain 或 Leiden 社区检测对 seqlets 进行聚类,使用受 t-SNE 启发的基于密度的距离变换以及对 Louvain 的共识方法。
- 阶段3:在簇内通过贪心合并并以最佳连续 Jaccard 相似性对齐将 seqlets 聚合为基序,并进行边界编辑(裁剪、扩展、居中)以得到统一长度的基序,丢弃与元簇活动模式不一致的基序。
- 提供可选的第二轮 seqlet 聚类以提升基序质量和稳定性。
实验结果
研究问题
- RQ1如何从每碱基重要性分数中识别对模型预测有实质贡献的 seqlets?
- RQ2如何将跨多个任务的 seqlets 聚类成表示不同模式的连贯元簇?
- RQ3如何在元簇内进行子聚类以基于相关任务细化基序表示?
- RQ4如何将多个 seqlets 聚合成稳健、可解释且边界精确的基序?
- RQ5有哪些鲁棒的后处理步骤可防止错误合并并确保基序与模式的一致性?
主要发现
- 引入 TF-MoDISco 0.5.6.5 版本,用于从重要性分数中识别整合后的、非冗余的基序。
- 描述将实际重要性分数与假设重要性分数相结合以提升基序发现。
- 提出连续 Jaccard 相似性度量来比较 seqlets,以及用于粗粒度亲和力估计的间隙 k-mer 嵌入。
- 提出使用 Louvain(带共识)或 Leiden 的密度自适应聚类流程用于基序聚类。
- 概述基序聚合、边界编辑以及防止错误合并并确保基序-模式对齐的纠正性后处理步骤。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。