QUICK REVIEW

[论文解读] Building Deep Networks on Grassmann Manifolds

Zhiwu Huang, Jiqing Wu|arXiv (Cornell University)|Nov 17, 2016

Morphological variations and asymmetry被引用 47

一句话总结

该论文提出了 Grassmann 网络（GrNet），这是首个用于 Grassmann 流形上端到端学习的深度学习架构，通过将全连接层、归一化层、池化层和输出层推广至黎曼几何而实现。该工作引入了流形感知层，包括满秩映射、重正交化、投影池化和投影映射，并推导出一种基于 QR 分解的矩阵广义反向传播方法用于训练，在视觉识别任务中取得了最先进性能。

ABSTRACT

Learning representations on Grassmann manifolds is popular in quite a few visual recognition tasks. In order to enable deep learning on Grassmann manifolds, this paper proposes a deep network architecture by generalizing the Euclidean network paradigm to Grassmann manifolds. In particular, we design full rank mapping layers to transform input Grassmannian data to more desirable ones, exploit re-orthonormalization layers to normalize the resulting matrices, study projection pooling layers to reduce the model complexity in the Grassmannian context, and devise projection mapping layers to respect Grassmannian geometry and meanwhile achieve Euclidean forms for regular output layers. To train the Grassmann networks, we exploit a stochastic gradient descent setting on manifolds of the connection weights, and study a matrix generalization of backpropagation to update the structured data. The evaluations on three visual recognition tasks show that our Grassmann networks have clear advantages over existing Grassmann learning methods, and achieve results comparable with state-of-the-art approaches.

研究动机与目标

为 Grassmann 流形上的深度学习提供支持，这些流形在视觉识别中被广泛使用，但此前难以被深度网络所利用。
克服现有 Grassmann 学习方法的局限性，这些方法依赖于浅层模型、切空间近似或计算成本较高的核方法。
开发一种完全可微分、端到端的深度网络架构，尊重 Grassmann 数据的内在黎曼几何结构。
将反向传播推广至流形上的结构化矩阵数据，特别是通过将 QR 分解融入梯度计算。
证明在 Grassmann 流形上的深度学习可实现与最先进方法相当的性能，同时保持几何结构。

提出的方法

提出满秩映射层，利用正交矩阵将输入的 Grassmann 数据转换为更具判别性的表示。
引入重正交化层，以保持基矩阵的正交性，确保其始终位于 Grassmann 流形上。
设计投影池化层，通过投影到低维子空间实现降维，同时尊重 Grassmann 几何结构。
开发投影映射层，将 Grassmann 数据转换为欧氏形式，以兼容标准全连接层。
将随机梯度下降推广至黎曼流形，用于连接权重，并基于 QR 分解推导出基于矩阵的反向传播规则以计算梯度。
采用投影度量 $ d_p(X_1,X_2) = 2^{-1/2} \|X_1X_1^T - X_2X_2^T\|_F $ 作为距离度量，该度量在 $ \sqrt{2} $ 的比例因子内近似真实测地线距离。

实验结果

研究问题

RQ1能否成功构建一个基于 Grassmann 流形的深度神经网络架构，以实现端到端的表征学习？
RQ2如何将标准深度学习组件（如全连接层、归一化、池化和输出层）推广至 Grassmann 流形的黎曼几何？
RQ3在 Grassmann 流形上，对结构化矩阵数据（如正交基）进行有效且可微分的反向传播的可行方法是什么？
RQ4所提出的网络能否在视觉识别任务中超越现有的浅层 Grassmann 学习方法？
RQ5与欧氏基线方法（如 SPDNet）相比，GrNet 的几何感知设计在收敛性和性能方面提升了多少？

主要发现

GrNet-2Blocks 在 AFEW 上达到 34.23% 的准确率，与之前最佳方法（SPDNet）持平，且优于所有先前的 Grassmann 学习方法。
在 HDM05 上，GrNet-2Blocks 达到 59.23% 的准确率，标准差为 1.78%，显著优于之前最先进方法 GDA（46.87%）和 DCC（41.34%）。
在 PaSC1 和 PaSC2 上，GrNet-2Blocks 分别达到 80.52% 和 72.76% 的准确率，与最佳现有方法 SPDNet（80.12% 和 72.83%）持平或超越。
GrNet 的收敛速度优于 SPDNet，在 HDM05 上验证准确率提升最高达 40%，在 AFEW 上提升 12%，且训练轮数更少。
每轮训练时间 GrNet 较长（10–13 分钟），高于 SPDNet（2–15 分钟），但理论分析表明 GrNet 应更快，因其使用低维正交矩阵（$ d \times q $，$ q \approx 10 $）而非 $ d \times d $ 的 SPD 矩阵。
消融实验表明，多个 FRMap 和 W-ProjPooling 层可提升性能，其中 M-FRMap 与 W-ProjPooling 组合在所有数据集上均取得最佳结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。