Skip to main content
QUICK REVIEW

[论文解读] Consistent Biclustering

Cheryl Flynn, Patrick O. Perry|arXiv (Cornell University)|Jun 29, 2012
Gene expression and cancer classification被引用 11
一句话总结

本文提出了一种基于轮廓似然的一致性双聚类方法,即使在分布模型误设的情况下,也能在矩阵维度增长时恢复真实的行和列类别。该方法采用受Kernighan-Lin算法启发的启发式优化,使计算密集型搜索变得可行,并在国会投票和基因微阵列数据上表现出色。

ABSTRACT

Biclustering, the process of simultaneously clustering the rows and columns of a data matrix, is a popular and effective tool for finding structure in a high-dimensional dataset. Many biclustering procedures appear to work well in practice, but most do not have associated consistency guarantees. To address this shortcoming, we propose a new biclustering procedure based on profile likelihood. The procedure applies to a broad range of data modalities, including binary, count, and continuous observations. We prove that the procedure recovers the true row and column classes when the dimensions of the data matrix tend to infinity, even if the functional form of the data distribution is misspecified. The procedure requires computing a combinatorial search, which can be expensive in practice. Rather than performing this search directly, we propose a new heuristic optimization procedure based on the Kernighan-Lin heuristic, which has nice computational properties and performs well in simulations. We demonstrate our procedure with applications to congressional voting records, and microarray analysis.

研究动机与目标

  • 解决现有双聚类方法缺乏一致性保证的问题。
  • 开发一种在假设数据分布误设时仍保持一致性的双聚类程序。
  • 提出一种计算上可行的替代方案,以替代直接的组合优化搜索以获得最优双聚类。
  • 在现实世界数据集(如国会投票记录和基因微阵列数据)上展示该方法的有效性。

提出的方法

  • 该方法使用轮廓似然估计数据矩阵中的行和列类别分配。
  • 假设数据矩阵元素服从参数模型,从而实现对聚类结构的似然推断。
  • 该程序设计为一致:随着矩阵维度增加,其渐近地恢复真实的行和列类别。
  • 为实现最优性,需对所有可能的行和列聚类组合进行组合搜索,但该方法计算上不可行。
  • 为克服此问题,作者提出一种基于Kernighan-Lin算法的启发式优化,通过局部移动迭代改进聚类分配。
  • 该启发式方法在计算效率与模拟和真实数据应用中的强经验性能之间取得良好平衡。

实验结果

研究问题

  • RQ1双聚类方法是否能在模型误设下实现对真实行和列类别的渐近一致性恢复?
  • RQ2如何使计算成本高昂的最优双聚类组合搜索变得实用?
  • RQ3所提出的基于轮廓似然的方法是否在具有多种数据模态的真实世界数据中优于现有方法?
  • RQ4该方法是否能可靠地检测高维数据(如基因表达和投票模式)中的有意义结构?

主要发现

  • 所提出的双聚类程序具有一致性:随着矩阵维度趋于无穷大,其渐近地恢复真实的行和列类别。
  • 即使假设的数据分布函数形式错误,该方法仍保持一致性。
  • 基于Kernighan-Lin算法的启发式优化显著减少了计算时间,同时在模拟中保持了高精度。
  • 该方法成功识别了国会议员投票记录中的连贯模式,揭示了基于政党的投票结构。
  • 在基因微阵列分析中,该方法检测到了具有生物学意义的基因和条件聚类,展示了其在基因组学中的实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。