[论文解读] Transformation Properties of Learned Visual Representations
本文提出了一种生成模型,通过使用非交换旋转群 SO(3) 的潜在表示,学习在 3D 物体旋转下线性变换的视觉表征。通过将姿态建模为潜在空间上的群作用,该方法实现了对未见过的物体朝向的准确插值与外推,表明不可约表示在均匀采样下是统计不相关的,这为常见的自监督学习目标提供了理论基础。
When a three-dimensional object moves relative to an observer, a change occurs on the observer's image plane and in the visual representation computed by a learned model. Starting with the idea that a good visual representation is one that transforms linearly under scene motions, we show, using the theory of group representations, that any such representation is equivalent to a combination of the elementary irreducible representations. We derive a striking relationship between irreducibility and the statistical dependency structure of the representation, by showing that under restricted conditions, irreducible representations are decorrelated. Under partial observability, as induced by the perspective projection of a scene onto the image plane, the motion group does not have a linear action on the space of images, so that it becomes necessary to perform inference over a latent representation that does transform linearly. This idea is demonstrated in a model of rotating NORB objects that employs a latent representation of the non-commutative 3D rotation group SO(3).
研究动机与目标
- 理解学习到的视觉表征在 3D 场景运动(尤其是旋转)下的变换方式。
- 通过关注变换特性而非不变性,解决不变表示的局限性。
- 开发一种模型,即使在透视投影导致的观测不完整情况下,也能学习在 SO(3) 下线性变换的潜在表征。
- 建立不可约群表示与潜在空间中统计去相关性之间的理论联系。
- 通过生成模型中的插值与外推,展示对未见物体姿态的泛化能力。
提出的方法
- 该模型使用一个潜在空间,其中 3D 旋转群 SO(3) 通过酉群表示在该空间上线性作用。
- 一个生成神经网络将每个旋转后的潜在表征映射为图像,群作用通过网络权重编码。
- 该模型使用单个潜在向量系数来表示同一物体的多个视角,每个视角对应 SO(3) 中的一个群元素。
- 该表征被构建为不可约表示的直和,以确保与群论的数学一致性。
- 采用正则化训练目标,结合重建损失与正则化项,以鼓励解耦且去相关的表征。
- 该模型在 NORB 数据集上使用类似硬-EM 的算法进行训练,数据通过 20° 方位旋转进行增强。
实验结果
研究问题
- RQ1学习到的视觉表征在 3D 刚体运动(尤其是旋转)下如何变换?
- RQ2群表示的不可约性与潜在空间中统计独立性或去相关性之间有何关系?
- RQ3一种在 SO(3) 下线性变换的潜在表征是否能实现对未见物体姿态的泛化?
- RQ4由于透视投影导致的观测不完整,如何影响表征变换的线性性?
- RQ5具有非交换群作用(SO(3))的模型是否能优于具有交换或线性假设的模型?
主要发现
- 该模型成功生成了训练期间未见过的物体姿态的逼真图像,展示了对未见角度的强大泛化能力。
- 即使仅在 20° 增量下进行训练,该模型在 40° 方位旋转范围内实现了准确的插值。
- 对外推至此前未见过的姿态(如 0° 和 40°)生成了合理的图像,且保持了物体身份的一致性。
- 使用不可约表示导致在轨道均匀采样下特征去相关,验证了关键的理论假设。
- 基于 SO(3) 群表示的潜在空间结构,实现了视觉特征变换的一致且可解释的建模。
- 该方法在姿态泛化方面优于标准自编码器,并为学习协变表征提供了数学基础框架。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。