QUICK REVIEW

[论文解读] Unsupervised learning of object frames by dense equivariant image labelling

James Thewlis, Hakan Bilen|arXiv (Cornell University)|Jun 9, 2017

Advanced Image and Video Retrieval Techniques参考文献 49被引用 64

一句话总结

本文训练一个 CNN，将每个图像像素映射到一个密集的、以对象为中心的坐标空间，该空间对形变不变，从而在仅使用图像变换或光流作为监督信号的情况下，进行关节化与可变形对象（如人脸、机器人手臂）的一致对象框架的无监督学习。

ABSTRACT

One of the key challenges of visual perception is to extract abstract models of 3D objects and object categories from visual measurements, which are affected by complex nuisance factors such as viewpoint, occlusion, motion, and deformations. Starting from the recent idea of viewpoint factorization, we propose a new approach that, given a large number of images of an object and no other supervision, can extract a dense object-centric coordinate frame. This coordinate frame is invariant to deformations of the images and comes with a dense equivariant labelling neural network that can map image pixels to their corresponding object coordinates. We demonstrate the applicability of this method to simple articulated objects and deformable objects such as human faces, learning embeddings from random synthetic transformations or optical flow correspondences, all without any manual supervision.

研究动机与目标

通过去除视角和形变等因素来激发无监督发现对象固有结构的动机。
将基于特征点的视角因子化扩展为密集的逐像素对象坐标。
引入一个神经标注函数，将像素分配到一个规范的以对象为中心的空间。
结合等变性与独特性约束，避免简单解。
展示对人脸、带纹理的球体以及简单关节对象的适用性。

提出的方法

形式化密集等变标记 Φ，将图像像素映射到一个低维的以对象为中心的空间 Z（与球面同胚）。
强制等变性：Φ(x, u) = Φ(gx, gu) 对于图像形变 g（或坐标上的 gwarp）。
施加独特性以防止恒定标注，例如使用使 Φ 与球面上的最大重叠准则对齐的损失。
通过在 R3 中嵌入标签来表示不确定性，利用基于内积的概率性 softmax p(v|u; x, x′, Φ) 实现软对应。
使用来自合成或真实形变的三元组 (x, x′, g) 进行训练，并优化 log-likelihood 损失 Llog 或距离损失 Ldist（γ-鲁棒）。
使用两种 CNN 架构（SIMPLE 和 DILATIONS）来控制感受野和学习密集嵌入的上下文。

实验结果

研究问题

RQ1是否可以从未标注的图像中无监督地学习到密集的、以对象为中心的坐标框架？
RQ2这种密集嵌入是否对同一对象内部的形变以及同一类别内跨实例的变异（如人脸）保持不变？
RQ3与仅使用等变性相比，结合独特性对等变性的影响如何？
RQ4该方法是否能从合成/玩具对象扩展到真实世界对象，如人脸和猫？
RQ5标签空间维度对捕获对象几何的影响是什么（例如 2D 圆 versus 3D 球的依赖）？

主要发现

可以在无监督条件下学习到一个稠密的、以对象为中心的坐标框架 Z，产生局部平滑的标注映射，对形变具有等变性。
等变性与独特性的结合可防止平凡的恒定解，并实现有意义的嵌入。
在若干设置中，使用 3D 标签空间（L=3）的距离损失 (Ldist) 比对数似然损失 (Llog) 产生更几何上一致的嵌入。
胶囊中心定位误差低：Llog = 0.97%，Ldist γ=1 = 1.13%，Ldist γ=0.5 = 1.14%（图像宽度的百分比）。
在手臂、带纹理的球体、人脸和猫上，该方法在形变下仍能产生一致的对象框架，在挑战性场景（人脸、AFLW、MAFL 数据集）中，DILATIONS 架构和距离损失表现更好。
对 AFLW 的最近邻/标志点回归在无监督到有监督的性能方面具有竞争力，例如 DILATIONS + Ldist，γ=0.5 达到 8.80% 的误差，相较有监督基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。