Skip to main content
QUICK REVIEW

[论文解读] Stochastic Canonical Correlation Analysis

Chao Gao, Dan Garber|arXiv (Cornell University)|Jan 1, 2019
Random Matrices and Applications被引用 13
一句话总结

本文建立了随机广义典型相关分析(CCA)的样本复杂度,表明使用随机移位-求逆幂法,仅需 $\mathcal{O}(\log \frac{1}{\epsilon})$ 次数据遍历即可实现对典型方向的 $\epsilon$-精度估计。该方法在依赖奇异值间隙 $\Delta$ 和条件数 $\gamma$ 的前提下实现了最优样本复杂度,其流式处理变体仅需一次数据遍历。

ABSTRACT

We study the sample complexity of canonical correlation analysis (CCA), \ie, the number of samples needed to estimate the population canonical correlation and directions up to arbitrarily small error. With mild assumptions on the data distribution, we show that in order to achieve $\epsilon$-suboptimality in a properly defined measure of alignment between the estimated canonical directions and the population solution, we can solve the empirical objective exactly with $N(\epsilon, \Delta, \gamma)$ samples, where $\Delta$ is the singular value gap of the whitened cross-covariance matrix and $1/\gamma$ is an upper bound of the condition number of auto-covariance matrices. Moreover, we can achieve the same learning accuracy by drawing the same level of samples and solving the empirical objective approximately with a stochastic optimization algorithm; this algorithm is based on the shift-and-invert power iterations and only needs to process the dataset for $\mathcal{O}\left(\log \frac{1}{\epsilon} ight)$ passes. Finally, we show that, given an estimate of the canonical correlation, the streaming version of the shift-and-invert power iterations achieves the same learning accuracy with the same level of sample complexity, by processing the data only once.

研究动机与目标

  • 确定在 $\epsilon$-精度下估计总体典型相关系数与方向所需的最少样本数。
  • 在较弱的分布假设下,分析精确与近似经验 CCA 解的样本复杂度。
  • 开发一种随机优化方法,实现在显著减少数据遍历次数的前提下达到相同精度。
  • 设计一种流式算法,在仅处理数据一次的同时保持相同的样本复杂度。

提出的方法

  • 提出一种基于移位-求逆幂迭代的随机优化框架,以近似求解经验 CCA 目标函数。
  • 在收敛性分析中,将白化后交叉协方差矩阵的奇异值间隙 $\Delta$ 和条件数 $\gamma$ 作为关键参数。
  • 应用移位-求逆变换以通过放大主导与次主导奇异值之间的差距来提升收敛速度。
  • 推导出实现估计与总体典型方向对齐的 $\epsilon$-次优性的样本复杂度 $N(\epsilon, \Delta, \gamma)$。
  • 设计了移位-求逆幂法的流式变体,可在仅一次数据遍历中处理数据,同时保持相同的样本复杂度。
  • 证明了精确与近似经验解在相同样本数下均可实现相同的 $\epsilon$-精度。

实验结果

研究问题

  • RQ1在较弱的分布假设下,实现 CCA 中典型方向的 $\epsilon$-精度估计所需的最少样本数是多少?
  • RQ2基于经验 CCA 目标函数近似解的随机优化能否实现与精确方法相同的样本复杂度?
  • RQ3随机算法需要多少次数据遍历才能在 CCA 估计中达到 $\epsilon$-精度?
  • RQ4流式算法能否在仅处理数据一次的同时实现相同的样本复杂度?
  • RQ5奇异值间隙 $\Delta$ 与条件数 $\gamma$ 如何影响 CCA 的样本复杂度?

主要发现

  • 实现典型方向对齐的 $\epsilon$-次优性所需样本复杂度为 $N(\epsilon, \Delta, \gamma)$,其依赖于奇异值间隙 $\Delta$ 与条件数 $\gamma$。
  • 在较弱的分布假设下,精确求解经验 CCA 目标函数可使用 $N(\epsilon, \Delta, \gamma)$ 个样本实现 $\epsilon$-精度。
  • 基于移位-求逆幂迭代的随机优化算法在相同样本复杂度下实现相同 $\epsilon$-精度,且仅需 $\mathcal{O}(\left(\log \frac{1}{\epsilon}\right))$ 次数据遍历。
  • 移位-求逆幂法的流式版本在仅处理数据一次的同时,保持了相同的学习精度与样本复杂度。
  • 随机方法的收敛速率由 $\mathcal{O}(\log \frac{1}{\epsilon})$ 次遍历决定,与全批量方法相比显著降低了计算开销。
  • 在给定假设下,理论界是紧致的,表明所提方法在 CCA 中实现了最优样本复杂度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。