Skip to main content
QUICK REVIEW

[论文解读] Deep Variational Canonical Correlation Analysis

Weiran Wang, Yan, Xinchen|arXiv (Cornell University)|Oct 11, 2016
Face and Expression Recognition参考文献 35被引用 99
一句话总结

引入 Deep Variational CCA (VCCA) 和 VCCA-private,通过神经网络学习共享潜在表示并对私有视图特定信息进行解耦,具备可解算的变分训练与样本生成。

ABSTRACT

We present deep variational canonical correlation analysis (VCCA), a deep multi-view learning model that extends the latent variable model interpretation of linear CCA to nonlinear observation models parameterized by deep neural networks. We derive variational lower bounds of the data likelihood by parameterizing the posterior probability of the latent variables from the view that is available at test time. We also propose a variant of VCCA called VCCA-private that can, in addition to the "common variables" underlying both views, extract the "private variables" within each view, and disentangles the shared and private information for multi-view data without hard supervision. Experimental results on real-world datasets show that our methods are competitive across domains.

研究动机与目标

  • 扩展线性 CCA 的潜变量解释到非线性、深度观测模型。
  • 通过基于测试时视图的后验推导出数据似然的变分下界。
  • 引入 VCCA-private 以在视图之间解耦共享信息与私有信息。
  • 通过随机梯度方法和重参数化实现可扩展的端到端训练。
  • 在图像-图像、语音-发音、以及图像-文本基准上展示具有竞争力的性能。

提出的方法

  • 将 x 与 y 模型为从潜在变量 z 产生的非线性观测,服从高斯先验 p(z),生成概率为 pθ(x|z) 和 pθ(y|z)。
  • 用 qφ(z|x) 近似 pθ(z|x),并通过 L(x,y;θ,φ) 最大化对 pθ(x,y) 的变分下界。
  • 使用重参数化技巧从 qφ(z|x) 采样 z,以对下界进行蒙特卡洛估计。
  • 通过将重建项解释为 log pθ(x|z) 和 log pθ(y|z),并通过 Σ 引入潜在噪声,将其与 MVAE 联系起来;并与自编码器风格的目标相关联。
  • 通过引入私有变量 hx, yh,具有因子分解的后验 qφ(z|x) qφ(hx|x) qφ(hy|y) 和相应的下界,提供 VCCA-private。
  • 可通过带 Adam 的随机梯度下降进行训练,实现端到端优化。

实验结果

研究问题

  • RQ1一个深度概率模型是否能在允许非线性视图生成过程的前提下,恢复多视数据的共享潜在表示?
  • RQ2变分目标是否能够在多视数据中实现对潜在空间的可行推断和采样?
  • RQ3引入私有、视图特定的潜在变量是否能在没有监督的情况下改善解耦与重建?
  • RQ4与先前的多视方法相比,VCCA 和 VCCA-private 在图像-图像、语音-发音、以及图像-文本基准上的表现如何?
  • RQ5学习到的表示在测试时是否能在是否访问所有视图的情况下支持下游任务?

主要发现

MethodMNIST Error (%)XRMB PER (%)Flickr mAP (%)
Original inputs13.1*37.6+0.480
CCA19.1*29.4+0.529
DCCA2.9*25.4+0.573
DCCAE2.2*25.40.573
Contrastive2.724.60.565
MVAE (orig)11.7*29.40.477
MVAE-var---
VCCA3.028.00.605
VCCA-private2.425.20.615
bi-VCCA--0.606
bi-VCCA-private--0.626
  • VCCA 与 VCCA-private 在各数据集(MNIST、XRMB、MIR-Flickr)上实现了有竞争力甚至更优的下游性能。
  • VCCA 可以通过带变分下界和重参数化的随机梯度方法端到端训练。
  • VCCA-private 能解耦共享信息与私有信息,提升重建质量和潜在空间中的类别分离。
  • 在 MNIST 上,VCCA 在给定设置下达到 3.0% 的 MNIST 错误率,VCCA-private 达到 2.4% 的 MNIST 错误率。
  • 在 XRMB 上,VCCA 达到 28.0% 的 PER,VCCA-private 达到 25.2% 的 PER,显示出具有竞争力的语音识别性能。
  • 在 MIR-Flickr 上,VCCA 与 VCCA-private 比若干基线取得更高的 mAP,并实现有效的单模态检索与跨模态分析。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。