QUICK REVIEW

[论文解读] CliqueCNN: Deep Unsupervised Exemplar Learning

Miguel Ángel Bautista, Artsiom Sanakoyeu|arXiv (Cornell University)|Aug 31, 2016

Human Pose and Action Recognition参考文献 29被引用 49

一句话总结

CliqueCNN 提出了一种无监督深度学习方法，通过将样本分组为紧凑且相互差异显著的团（clique）来实现基于样本的相似性学习，从而为卷积神经网络（CNN）创建平衡的训练批次。通过将相似性学习建模为团分类任务，该模型在无标签的情况下学习到鲁棒且可泛化的表征，实现了姿态分析和物体分类任务的最先进性能。

ABSTRACT

Exemplar learning is a powerful paradigm for discovering visual similarities in an unsupervised manner. In this context, however, the recent breakthrough in deep learning could not yet unfold its full potential. With only a single positive sample, a great imbalance between one positive and many negatives, and unreliable relationships between most samples, training of Convolutional Neural networks is impaired. Given weak estimates of local distance we propose a single optimization problem to extract batches of samples with mutually consistent relations. Conflicting relations are distributed over different batches and similar samples are grouped into compact cliques. Learning exemplar similarities is framed as a sequence of clique categorization tasks. The CNN then consolidates transitivity relations within and between cliques and learns a single representation for all samples without the need for labels. The proposed unsupervised approach has shown competitive performance on detailed posture analysis and object classification.

研究动机与目标

解决训练 CNN 进行无监督样本学习的挑战，其中每个类别仅存在一个正样本，而负样本数量远超正样本。
克服在高度不平衡、弱监督的相似性学习设置下，随机梯度下降（SGD）因成对关系不一致或缺失而产生的不稳定性。
开发一种方法，无需人工标注或在大规模有标签数据集上预训练，即可学习跨样本的传递性与可泛化视觉相似性。
仅利用弱局部相似性信号，实现对细粒度视觉任务（如人体姿态估计和物体识别）的有效深度表征学习。
将单一优化问题形式化，以生成由紧凑且相互远离的团组成的平衡训练批次，从而最小化来自模糊或冲突关系的错误监督信号。

提出的方法

利用弱局部相似性估计（例如近似重复或远距离对）构建初始的小型团，形成围绕样本的紧凑群体。
将全局优化问题形式化，以将这些团分组为训练批次，使得批次内所有团相互差异显著，从而确保每个样本的可靠监督。
定义一个掩码分类任务：预测给定样本是否属于批次中的特定团，使 CNN 能够通过传递推理学习判别性特征。
使用交叉熵损失在团分类任务上端到端训练 CNN，使网络能够隐式调和不一致的成对关系，并在批次间泛化相似性。
利用学习到的特征的传递性，传播并补全缺失或不可靠的相似性关系，构建一致的全局相似性结构。
使用弱无监督相似性估计（例如来自 Wang et al. [33] 的结果）初始化模型，无需在 PASCAL VOC 或 Leeds Sports 等下游数据集上进行微调。

实验结果

研究问题

RQ1尽管存在极端类别不平衡且缺乏可靠的成对关系，是否仍能有效训练深度 CNN 进行无监督样本学习？
RQ2如何构建训练批次，以在保持平衡性和代表性的同时最小化冲突的监督信号？
RQ3基于团的分组策略是否能帮助 CNN 在无任何标注数据的情况下学习到传递性与可泛化的视觉相似性？
RQ4通过团分类进行无监督 CNN 学习，在细粒度视觉任务中相较于现有无监督和弱监督方法，性能提升程度如何？
RQ5所提出的方法是否能在无需在任何标注数据上微调的情况下，泛化到下游任务（如人体姿态估计和物体分类）？

主要发现

在 Leeds Sports 数据集上，CliqueCNN 在人体姿态估计任务中达到 43.5% 的正确部件百分比（PCP），显著优于无监督设置下的 HOG-LDA（38.4%）和 AlexNet（41.1%）。
该方法在无需任何微调的情况下，将 Wang et al. [33] 的基线无监督相似性度量性能提升了 3 个百分点，达到 PASCAL VOC 2007 物体分类任务的 48.12% 准确率。
学习到的表征对前后翻转具有不变性，表明只要形状相似性保持，模型对外观变化具有鲁棒性。
失败案例显示，由于形状相似性，模型可能混淆正面和背面的人体，表明需要引入额外归纳偏置（如人脸检测）以改进性能。
该方法在未见数据上泛化良好，定性结果展示了成功的姿态迁移，即训练集中最近邻样本能正确预测姿态。
尽管完全无监督，该方法在性能上与完全监督的最先进方法（如 Pose Machines，72.0% PCP）相比仍具竞争力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。