QUICK REVIEW

[论文解读] Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data

Ehsan Hajiramezanali, Siamak Zamani Dadaneh|arXiv (Cornell University)|Oct 22, 2018

Gene expression and cancer classification被引用 32

一句话总结

本文提出贝叶斯多领域学习（BMDL），一种分层负二项因子分解模型，能够从多个癌症类型的过度分散NGS计数数据中学习共享和领域特异的潜在因子。通过使用beta-Bernoulli过程先验，自适应地将潜在因子分配给不同领域，BMDL在目标领域样本较少的情况下仍能实现稳健、无负迁移的亚型划分，相较于基于HDP的方法准确率最高提升16%，在高度相关的源数据下准确率提升达8%。

ABSTRACT

Precision medicine aims for personalized prognosis and therapeutics by utilizing recent genome-scale high-throughput profiling techniques, including next-generation sequencing (NGS). However, translating NGS data faces several challenges. First, NGS count data are often overdispersed, requiring appropriate modeling. Second, compared to the number of involved molecules and system complexity, the number of available samples for studying complex disease, such as cancer, is often limited, especially considering disease heterogeneity. The key question is whether we may integrate available data from all different sources or domains to achieve reproducible disease prognosis based on NGS count data. In this paper, we develop a Bayesian Multi-Domain Learning (BMDL) model that derives domain-dependent latent representations of overdispersed count data based on hierarchical negative binomial factorization for accurate cancer subtyping even if the number of samples for a specific cancer type is small. Experimental results from both our simulated and NGS datasets from The Cancer Genome Atlas (TCGA) demonstrate the promising potential of BMDL for effective multi-domain learning without "negative transfer" effects often seen in existing multi-task learning and transfer learning methods.

研究动机与目标

为解决从NGS计数数据进行癌症亚型划分时样本量有限的挑战，特别是针对罕见或研究不足的癌症类型。
开发一种方法，能够有效整合来自多个癌症类型（领域）的数据，即使各领域仅存在微弱关联，也不会遭受负迁移影响。
通过从过度分散的计数数据中提取的低维、领域自适应的潜在表示，实现稳健且可重复的癌症亚型划分。
提供一种生成式、无监督的框架，通过数据驱动的方式自动推断领域相关性与因子共享。

提出的方法

BMDL采用分层贝叶斯模型，利用负二项似然函数对过度分散进行建模，将NGS计数数据分解为领域特异和全局共享的潜在因子。
引入具有beta-Bernoulli过程先验的潜在二值选择变量，实现稀疏、数据驱动的潜在因子到各领域的分配，从而灵活实现因子的共享或隔离。
该模型采用基于伽马过程的新型数据增强方案，以高效地从潜在因子和超参数的后验分布中进行采样。
该框架支持任意数量的领域，且不限制源领域和目标领域的数量，可实现任意数量领域的联合学习。
潜在因子丰度通过伽马过程独立建模，避免了基于狄利克雷过程模型的负相关约束。
由此生成的低维表示可与任何下游的监督或无监督亚型划分模型结合使用。

实验结果

研究问题

RQ1当目标领域样本极少时，贝叶斯多领域学习框架是否能有效提升癌症亚型划分的准确率？
RQ2如何在多领域学习中自适应地共享或隔离潜在因子，以避免负迁移？
RQ3在不同领域相关程度下，所提出的模型相较于现有迁移学习和多任务学习方法，在NGS计数数据上的表现提升程度如何？
RQ4共享潜在因子的数量能否作为领域相关性的可靠度量，以一种系统化、数据驱动的方式进行评估？

主要发现

在高度相关的设置下，BMDL相较于基于HDP的方法准确率最高提升16%，主要得益于通过伽马过程对潜在因子丰度的更优建模。
当使用100个高度相关的源样本时，BMDL相较于基线方法将目标领域亚型划分准确率最高提升8%。
即使在低相关性的源领域下，BMDL仍能保持或提升性能，且无负迁移现象，相较于基线方法稳定提升最多5%。
在三个领域（两个源领域和一个目标领域）各含100个样本的设置下，准确率相较于单个源领域（25个样本）提升了1%。
在100个样本的低相关性领域基础上，增加一个100个样本的高度相关源领域，准确率约提升4%，表明模型对领域异质性具有强鲁棒性。
该模型通过数据驱动的因子分配机制学习领域相关性，成功避免了负迁移，即使在领域间仅存在遥远关联时亦然。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。