Skip to main content
QUICK REVIEW

[论文解读] An image representation based convolutional network for DNA classification

Bojian Yin, Marleen Balvert|arXiv (Cornell University)|Jun 13, 2018
Genomics and Chromatin Dynamics参考文献 18被引用 16
一句话总结

该论文提出了一种新型卷积神经网络(HCNN),通过使用希尔伯特空间填充曲线将DNA序列转换为2D图像,以提升染色质状态的预测性能。利用该曲线的连续性和聚类特性,HCNN比1D序列模型更有效地捕捉长程相互作用,在多个表观遗传组数据集上实现了更高的准确率和更快的训练速度,优于当前最先进的方法。

ABSTRACT

The folding structure of the DNA molecule combined with helper molecules, also referred to as the chromatin, is highly relevant for the functional properties of DNA. The chromatin structure is largely determined by the underlying primary DNA sequence, though the interaction is not yet fully understood. In this paper we develop a convolutional neural network that takes an image-representation of primary DNA sequence as its input, and predicts key determinants of chromatin structure. The method is developed such that it is capable of detecting interactions between distal elements in the DNA sequence, which are known to be highly relevant. Our experiments show that the method outperforms several existing methods both in terms of prediction accuracy and training time.

研究动机与目标

  • 通过捕捉长程相互作用,提升从原始 DNA 序列预测染色质状态的能力。
  • 通过引入 DNA 的 2D 空间表示,解决深度学习中 1D 序列建模的局限性。
  • 在保持或提升性能的同时,减少深度网络的训练时间与参数数量。
  • 评估希尔伯特曲线作为卷积网络中 DNA 序列嵌入方法的有效性。

提出的方法

  • 使用希尔伯特曲线将 1D DNA 序列转换为类似 2D 图像的张量,以保持序列局部邻近性,并最小化矩形子区域中的碎片化。
  • 设计一种带有大卷积核的深度残差 CNN,以检测长程相互作用,而无需依赖大型全连接层。
  • 在最终全连接层之前使用小尺寸且逐步减少的层,以最小化参数数量并加速训练。
  • 在 2D 图像表示上应用标准 CNN 操作(卷积、批归一化、ReLU、池化),以提取分层特征。
  • 在多种空间填充曲线(希尔伯特、Z 阶等)之间进行比较,以验证希尔伯特映射的优越性。
  • 在多个表观遗传组数据集上进行模型训练与评估,包括 H3K4me3、H3K27ac 和剪接连接预测。

实验结果

研究问题

  • RQ1通过希尔伯特曲线将 DNA 序列表示为 2D 图像,是否能提升 CNN 检测远端调控相互作用的能力?
  • RQ2HCNN 架构在预测染色质状态方面与现有模型(如 Seq-CNN、LSTM、SVM)相比表现如何?
  • RQ3希尔伯特曲线映射对模型准确率、训练时间及假阳性鲁棒性有何影响?
  • RQ42D 图像表示能否增强对剪接连接等功能元件的检测能力?

主要发现

  • HCNN 在所有测试数据集上均达到最高预测准确率,优于 SVM、LSTM、Seq-CNN 和 seq-HCNN,在 H3 数据集上的平均准确率为 87.34%,在剪接数据集上的准确率为 94.11%。
  • HCNN 显著缩短了训练时间,在 H3 数据集上训练时间少于 4 分钟,而 LSTM 为 35:43,seq-HCNN 为 6:47。
  • HCNN 在精确率、召回率和 AUC/PR-AUC 指标上表现更优,在剪接连接预测任务中,AUC 达 98.67%,PR-AUC 达 97.67%。
  • 希尔伯特曲线映射在准确率和训练效率方面均优于其他空间填充曲线和 1D 序列表示,证实其在 DNA 序列建模中的适用性。
  • 该模型在多种表观遗传标记上表现稳健,H3K4me1、H3K4me2、H3K4me3 和 H3K79me3 数据集的 F1 分数和 AUC 均一致提升。
  • 大卷积核与残差连接的结合,使模型在不引起参数数量过度增长的情况下,有效检测长程相互作用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。