QUICK REVIEW

[论文解读] Semi-supervised Zero-Shot Learning by a Clustering-based Approach

Seyed Mohsen Shojaee, Mahdieh Soleymani Baghshah|arXiv (Cornell University)|May 29, 2016

Domain Adaptation and Few-Shot Learning参考文献 27被引用 34

一句话总结

本文提出了一种半监督零样本学习方法，通过利用深度视觉特征和聚类来提升泛化能力，通过联合学习将类别特征映射到视觉特征空间的线性变换，并将未标记的未见类别样本分配到聚类中。该方法通过利用深度特征的自然聚类结构并利用未标记数据缓解领域偏移，在四个基准数据集中的三个上优于最先进方法。

ABSTRACT

In some of object recognition problems, labeled data may not be available for all categories. Zero-shot learning utilizes auxiliary information (also called signatures) describing each category in order to find a classifier that can recognize samples from categories with no labeled instance. In this paper, we propose a novel semi-supervised zero-shot learning method that works on an embedding space corresponding to abstract deep visual features. We seek a linear transformation on signatures to map them onto the visual features, such that the mapped signatures of the seen classes are close to labeled samples of the corresponding classes and unlabeled data are also close to the mapped signatures of one of the unseen classes. We use the idea that the rich deep visual features provide a representation space in which samples of each class are usually condensed in a cluster. The effectiveness of the proposed method is demonstrated through extensive experiments on four public benchmarks improving the state-of-the-art prediction accuracy on three of them.

研究动机与目标

解决在所有类别均无标注数据的场景下的零样本识别问题，特别是在细粒度分类场景中。
通过利用未见类别中的未标记样本（这些样本在传统方法中常被忽略）来提升零样本识别性能。
利用深度视觉特征的内在聚类结构，即同一类别的样本自然形成紧凑聚类。
通过联合学习类别特征映射和样本分配，利用已标记的已见类别数据和未标记的未见类别数据，减轻已见类别与未见类别之间的领域偏移。
证明基于聚类的未标记数据分配可增强视觉特征空间中映射类别特征的代表性。

提出的方法

该方法学习一个线性变换 D，将类别特征映射到深度视觉特征空间，使得映射后的特征与已见类别的标记样本接近。
通过最小化一个损失函数，联合优化变换 D 和未标记样本到未见类别的分配，该损失函数鼓励映射后的特征代表其分配的聚类。
该方法假设来自同一类别的视觉特征自然形成聚类，并利用此结构来指导未标记数据的标签分配。
一个更简单的基线方法首先仅使用已见类别数据学习 D，然后应用聚类（如 k-means）将未标记样本分配到未见类别。
优化使用带有超参数 γ 和 β 的正则化目标函数，通过在训练数据上进行 10 折交叉验证进行调优。
该方法使用预训练 VGG-19 网络的第一个全连接层的 4096 维特征作为视觉嵌入空间。

实验结果

研究问题

RQ1联合学习类别特征映射和未标记未见类别样本分配是否能提升零样本识别性能？
RQ2深度视觉特征的自然聚类结构是否能增强映射后类别特征的代表性？
RQ3未见类别的未标记数据是否有助于缓解零样本学习中的领域偏移？
RQ4所提方法在标准零样本基准测试中与最先进方法相比表现如何？
RQ5使用未标记数据结构初始化变换矩阵是否能显著提升性能？

主要发现

所提方法在四个公开基准数据集中的三个（CUB、AWA1 和 SUN）上优于最先进方法，实现了更高的零样本识别准确率。
在 CUB 数据集上，该方法通过联合优化（Ours(init - R)）实现了 68.7% 的平均准确率，显著优于先前方法。
更简单的基线方法（Ours (Simple)）也表现出色，表明即使不进行联合优化，基于聚类的分配方法依然有效。
结合未标记数据结构的初始化方法（Ours(init - R)）显著优于仅使用已见类别数据初始化的方法（Ours(init D)），证明了未标记数据的价值。
在 aPascal-aYahoo 数据集上，由于类别特征因属性平均而高度相似，该方法未超越其他方法，表明当特征缺乏判别性时存在局限性。
实验验证了同一类别下的视觉特征自然形成聚类，支持了该方法设计的核心假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。