QUICK REVIEW

[论文解读] Towards Gene Expression Convolutions using Gene Interaction Graphs

Francis Dutil, Joseph Cohen|arXiv (Cornell University)|Jun 18, 2018

Bioinformatics and Genomic Networks参考文献 7被引用 28

一句话总结

本文提出在图卷积网络（GCNs）中使用基因互作图作为归纳偏置，以提升低样本量基因表达数据上的深度学习性能。通过利用GeneMania和RegNetwork等图谱中的生物学知识，该方法增强了特征学习与预测性能，尤其在单基因表达预测中表现显著——当使用一阶邻居时，AUC最高提升达20%，但性能高度依赖于图的质量。

ABSTRACT

We study the challenges of applying deep learning to gene expression data. We find experimentally that there exists non-linear signal in the data, however is it not discovered automatically given the noise and low numbers of samples used in most research. We discuss how gene interaction graphs (same pathway, protein-protein, co-expression, or research paper text association) can be used to impose a bias on a deep model similar to the spatial bias imposed by convolutions on an image. We explore the usage of Graph Convolutional Neural Networks coupled with dropout and gene embeddings to utilize the graph information. We find this approach provides an advantage for particular tasks in a low data regime but is very dependent on the quality of the graph used. We conclude that more work should be done in this direction. We design experiments that show why existing methods fail to capture signal that is present in the data when features are added which clearly isolates the problem that needs to be addressed.

研究动机与目标

解决深度学习模型在低样本量基因表达数据上表现不佳的挑战。
探究基因互作图是否可作为有效的归纳偏置，以提升模型泛化能力并减少过拟合。
评估图的质量与结构对基因表达任务下游预测性能的影响。
证明基因表达数据中存在非线性信号，而标准模型常因噪声和样本有限而无法捕捉。
建立一个渐进式难度设置的基准，从局部基因邻域到完整基因集，用于评估模型性能。

提出的方法

作者使用图卷积网络（GCNs）沿由先验生物学知识定义的基因互作图边传播并聚合基因表达特征。
每个基因被嵌入图中，其邻居由蛋白质-蛋白质互作、共表达或来自GeneMania和RegNetwork等数据库的文字关联定义。
GCN使用归一化邻接矩阵的谱卷积近似：$\tilde{A} = D'^{-1/2} A' D'^{-1/2}$，其中 $A' = A + I_N$。
模型训练采用ReLU激活函数、Dropout正则化，并使用32维基因嵌入以减少低数据环境下的过拟合。
该方法将GCNs与MLPs、带L1和网络正则化的稀疏逻辑回归（SLR）以及不同深度和池化策略的GCN架构进行比较。
实验逐步增加输入基因数量——从一阶邻居到全部16,000个基因——以评估模型的鲁棒性与信号检测能力。

实验结果

研究问题

RQ1基因互作图能否有效作为归纳偏置，以提升低样本量基因表达数据上的深度学习性能？
RQ2底层基因互作图的质量与结构是否显著影响基因表达预测中的模型性能？
RQ3基因表达数据中是否存在非线性信号，而标准模型因噪声和样本有限而无法捕捉？
RQ4在单基因表达预测任务中，GCNs相较于MLPs和逻辑回归等传统模型的性能优势有多大？
RQ5随着输入基因集合逐步扩大，模型性能如何变化？局部邻域信息的使用是否能保留预测信号？

主要发现

通过GCNs使用基因互作图作为归纳偏置，可显著提升性能，尤其在使用一阶邻居预测单基因表达时，AUC最高提升达20%。
在13.41%的目标基因中，GeneMania图的预测性能优于全基因集，而RegNetwork仅为6.25%，尽管RegNetwork的每节点边数接近其两倍。
GCNs在输入特征受限于生物相关邻近基因时，显著优于MLPs和逻辑回归模型。
随着更多邻近基因被纳入，性能保持稳定或进一步提升，表明相关信号通常具有局部性，若使用全部基因则难以捕捉。
本研究证实基因表达数据中存在非线性信号，但常因噪声和低数据环境下过拟合而被标准模型忽略。
模型性能对互作图质量高度敏感，表明简单合并多个数据源并不能保证性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。