QUICK REVIEW

[论文解读] Learning Robust Visual-Semantic Embeddings

Yao-Hung Hubert Tsai, Liang-Kang Huang|arXiv (Cornell University)|Mar 17, 2017

Domain Adaptation and Few-Shot Learning参考文献 1被引用 21

一句话总结

该论文提出 ReViSE，一种新颖的端到端框架，通过结合自监督对比学习与基于自编码器和最大均值差异（MMD）的无监督表示学习，联合学习鲁棒的视觉-语义嵌入。该方法在 Animals with Attributes 和 CUB-200-2011 数据集上的零样本和少样本图像识别与检索任务中达到最先进性能，在归纳设置下于 AwA 数据集上达到 93.4% 的 top-1 准确率，在 CUB 数据集上达到 93.5% 的 top-1 准确率。

ABSTRACT

Many of the existing methods for learning joint embedding of images and text use only supervised information from paired images and its textual attributes. Taking advantage of the recent success of unsupervised learning in deep neural networks, we propose an end-to-end learning framework that is able to extract more robust multi-modal representations across domains. The proposed method combines representation learning models (i.e., auto-encoders) together with cross-domain learning criteria (i.e., Maximum Mean Discrepancy loss) to learn joint embeddings for semantic and visual features. A novel technique of unsupervised-data adaptation inference is introduced to construct more comprehensive embeddings for both labeled and unlabeled data. We evaluate our method on Animals with Attributes and Caltech-UCSD Birds 200-2011 dataset with a wide range of applications, including zero and few-shot image recognition and retrieval, from inductive to transductive settings. Empirically, we show that our framework improves over the current state of the art on many of the considered tasks.

研究动机与目标

通过在模态间学习更鲁棒的联合视觉-语义嵌入，提升零样本和少样本图像识别与检索性能。
通过引入无标签数据的无监督表示学习，解决现有方法仅依赖有监督配对数据的局限性。
通过使用最大均值差异（MMD）损失强制实施分布对齐，减少视觉与文本嵌入之间的域偏移。
通过一种新颖的无监督数据自适应推理技术提升模型泛化能力与鲁棒性，改善有标签与无标签样本的嵌入质量。

提出的方法

该框架为视觉与文本特征分别使用独立的自编码器，通过重建损失进行训练，以从有标签和无标签数据中学习有意义的表示。
引入一种跨模态 MMD 损失，以最小化视觉与文本代码表示之间的分布差异，促进联合嵌入空间中的更好对齐。
在测试阶段应用一种新颖的无监督数据自适应推理技术，以优化无标签样本的预测，提升泛化能力与性能。
整体目标结合了有监督对比损失（用于图像-文本配对对齐）与无监督 MMD 损失（用于域对齐），以端到端方式联合优化。
模型通过有监督与无监督损失的加权组合进行训练，其中超参数 β 与 λ 通过验证集上的交叉验证进行调优。
该方法在归纳与归纳设置下进行评估，消融研究证实了各组件的贡献，尤其是 MMD 与无监督自适应步骤。

实验结果

研究问题

RQ1将有监督与无监督表示学习相结合，是否能提升零样本与少样本学习设置下视觉-语义嵌入的鲁棒性？
RQ2基于 MMD 的分布对齐在减少视觉与文本特征空间之间域偏移方面有多有效？
RQ3所提出的无监督数据自适应推理技术是否能显著提升无标签测试样本的性能？
RQ4在联合训练目标中，有监督与无监督损失组件之间的最优平衡是什么？
RQ5在不同数据集与设置下，所提出的 ReViSE 框架与最先进方法相比，在准确率与泛化能力方面表现如何？

主要发现

在归纳设置下，ReViSE 在 Animals with Attributes（AwA）数据集上达到 93.4% 的 top-1 准确率，在 CUB-200-2011（CUB）数据集上达到 93.5% 的 top-1 准确率，优于先前最先进方法。
消融研究证实，MMD 损失显著降低了视觉与文本代码之间的分布差异，ReViSE 模型的 MMD 距离始终低于无 MMD 的变体（ReViSE†）。
所提出的无监督数据自适应推理技术带来显著的性能提升，相比无此组件的基线模型，准确率提升超过 10%。
当 α（无监督损失权重）超过 1.0 时，性能趋于平稳，表明无监督损失不应主导有监督监督。
在 CUB 数据集上使用人工标注属性时，ReViSE 在归纳设置下达到 65.4% 的 top-1 准确率，超过此前最佳方法（SMS ESZSL 的 61.6%）。
在 CUB 数据集上的零样本检索精确率-召回率曲线显示，ReViSE 在所有召回水平下均表现出更优的检索性能，证实其在跨模态检索中的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。