[论文解读] OmicsMapNet: Transforming omics data to take advantage of Deep Convolutional Neural Network for discovery
OmicsMapNet 通过利用功能性和层级性关系(例如 KEGG BRITE)将高维组学数据转换为类似二维图像的表示,从而实现深度卷积神经网络(CNN)在表型分类中的应用。该方法在分类胶质母细胞瘤(LGG 与 GBM)方面实现了高精度,并通过 CNN 可解释性识别出具有功能相关性的分子特征,展示了将生物知识整合到深度学习中用于多组学发现的一种新框架。
We developed OmicsMapNet approach to take advantage of existing deep leaning frameworks to analyze high-dimensional omics data as 2-dimensional images. The omics data of individual samples were first rearranged into 2D images in which molecular features related in functions, ontologies, or other relationships were organized in spatially adjacent and patterned locations. Deep learning neural networks were trained to classify the images. Molecular features informative of classes of different phenotypes were subsequently identified. As an example, we used the KEGG BRITE database to rearrange RNA-Seq expression data of TCGA diffuse glioma samples as treemaps to capture the functional hierarchical structure of genes in 2D images. Deep Convolutional Neural Networks (CNN) were derived using tools from TensorFlow to learn the grade of TCGA LGG and GBM samples with relatively high accuracy. The most contributory features in the trained CNN were confirmed in pathway analysis for their plausible functional involvement.
研究动机与目标
- 通过将数据转换为保留生物关系的二维表示,弥合高维组学数据与深度学习之间的差距。
- 通过利用基于功能本体的分子特征空间组织,使深度卷积神经网络(CNN)能够从组学数据中学习。
- 识别对表型分类(如胶质瘤的肿瘤分级)有贡献的生物学上有意义的特征。
- 通过通路分析验证所识别特征的功能相关性,确保其生物学合理性。
- 证明基于图像的深度学习在复杂疾病多组学发现中的可行性和有效性。
提出的方法
- 使用层级功能注释(如 KEGG BRITE 通路)将单个样本的组学数据(例如 RNA-Seq)重新排列为二维图像,以在空间上定位生物相关的基因。
- 生成的二维表示以树图(treemaps)形式组织,保留了分子特征之间的层级关系和功能关系。
- 使用来自 TensorFlow 的预训练深度卷积神经网络(CNN)对这些类似图像的组学图进行微调,以分类表型类别(例如 LGG 与 GBM)。
- 通过激活图和基于梯度的显著性技术,从训练好的 CNN 中提取特征重要性,以识别驱动分类的关键分子特征。
- 通过通路富集分析对识别出的特征进行交叉验证,以确认其与表型的功能相关性。
- 该框架通过重用相同的转换和学习流程,支持跨组学类型进行迁移学习和泛化。
实验结果
研究问题
- RQ1高维组学数据能否被有效转换为保留生物功能关系的二维图像表示?
- RQ2在这些二维组学图上训练的深度卷积神经网络能否实现对胶质母细胞瘤等复杂表型(如肿瘤分级)的准确分类?
- RQ3CNN 识别出的最具影响力的特征是否与胶质瘤发生中已知的生物相关通路一致?
- RQ4将生物知识(如 KEGG BRITE)整合到数据表示中,能否提升多组学分析中深度学习模型的可解释性和性能?
- RQ5所提出的方法是否可在不同组学数据类型和表型分类中实现泛化?
主要发现
- OmicsMapNet 利用转换为二维树图表示的 RNA-Seq 数据,在 TCGA 胶质瘤样本中对低级别胶质瘤(LGG)和胶质母细胞瘤(GBM)表型的分类实现了高精度。
- 训练好的 CNN 识别出的最具贡献特征富集于已知的癌症相关通路,证实其与胶质瘤发生的功能相关性。
- 该方法成功利用 KEGG BRITE 的层级结构对组学特征进行空间组织,使 CNN 能够检测功能关系中的复杂模式。
- 训练好的 CNN 生成的显著性图突出了特定基因和通路作为分类的关键驱动因素,支持生物学可解释性。
- 该方法表明,当将生物背景编码到空间数据结构中时,深度学习模型可被有效应用于组学数据。
- 该框架为将生物知识整合到深度学习中用于多组学发现,提供了一条可扩展且可解释的流程。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。