Skip to main content
QUICK REVIEW

[论文解读] Improving One-Shot Learning through Fusing Side Information

Yao-Hung Hubert Tsai, Ruslan Salakhutdinov|arXiv (Cornell University)|Oct 23, 2017
Domain Adaptation and Few-Shot Learning参考文献 16被引用 43
一句话总结

该论文提出了一种新颖的方法,通过结构化核学习框架融合多种类型的辅助信息——属性、词嵌入和层次关系——以改进少样本图像分类。通过利用希尔伯特-施密特独立性准则(HSIC)建模标签亲和力,该方法在CUB和AwA数据集上实现了最先进性能,尤其在融合所有辅助信息类型时表现更优。

ABSTRACT

Deep Neural Networks (DNNs) often struggle with one-shot learning where we have only one or a few labeled training examples per category. In this paper, we argue that by using side information, we may compensate the missing information across classes. We introduce two statistical approaches for fusing side information into data representation learning to improve one-shot learning. First, we propose to enforce the statistical dependency between data representations and multiple types of side information. Second, we introduce an attention mechanism to efficiently treat examples belonging to the 'lots-of-examples' classes as quasi-samples (additional training samples) for 'one-example' classes. We empirically show that our learning architecture improves over traditional softmax regression networks as well as state-of-the-art attentional regression networks on one-shot recognition tasks.

研究动机与目标

  • 为解决少样本学习中标签样本有限的挑战,利用属性、词嵌入和层次关系等多样化辅助信息源。
  • 通过使用结构化核模型建模数据与类别表征之间的依赖关系,提升少样本分类的泛化能力和鲁棒性。
  • 探索通过联合嵌入学习实现辅助信息的间接融合,而非直接与图像特征拼接。
  • 评估不同辅助信息组合对模型性能的影响,识别最优融合策略。
  • 研究将标签搜索空间扩展至包含所有训练和测试类别的实际可行性,模拟真实世界部署场景。

提出的方法

  • 该方法采用两阶段框架:首先使用预训练的GoogLeNet提取图像特征,然后通过可学习的非线性变换映射到低维空间。
  • 标签预测通过软max回归(参数化)或注意力回归(非参数化)执行,后者使用可学习的注意力核来加权支持集样本。
  • 辅助信息通过学习共享嵌入空间实现间接融合,其中数据与类别表征之间的依赖关系通过希尔伯特-施密特独立性准则(HSIC)强制实现。
  • 基于HSIC的损失函数鼓励模型学习一个标签亲和核,利用多种辅助信息类型捕捉类别间的关系:属性(att)、word2vec(w2v)、GloVe(glo)和层次结构(hie)。
  • 模型通过Adam优化器端到端训练,权衡超参数α = 0.1,软max方法在500次迭代内收敛,注意力回归在100次迭代内收敛。
  • 该框架通过在推理时将标签空间修改为包含所有类别,支持标准和广义少样本学习。

实验结果

研究问题

  • RQ1多种辅助信息类型(属性、词嵌入、层次结构)的融合如何影响少样本分类性能?
  • RQ2通过核学习实现的辅助信息间接融合是否优于直接与图像特征拼接?
  • RQ3每种辅助信息类型对模型准确率的相对贡献如何?是否存在最优组合?
  • RQ4将标签搜索空间扩展至包含所有训练和测试类别,对少样本学习性能有何影响?
  • RQ5所提出的基于HSIC的方法与ReViSE和标准注意力网络等现有方法相比,在少样本识别任务中表现如何?

主要发现

  • 在完整辅助信息(att, w2v, glo, hie)下,所提HSIC方法在AwA数据集上达到76.98%的准确率,在CUB数据集上达到33.75%,显著优于无辅助信息的基线模型。
  • 采用HSIC融合的注意力回归在AwA上达到76.98%,在CUB上达到33.75%,分别较最佳基线(无辅助信息的软max)提升10.59%和7.82%。
  • 通过拼接方式将属性与图像特征直接融合,在AwA上仅达到63.15%的准确率,而所提的间接融合方法达到70.08%,证明结构化嵌入学习的优越性。
  • 即使所有辅助信息类型均可用,单一类型也未表现出持续主导性;性能取决于组合方式,表明各信息源之间存在非线性交互。
  • 将标签搜索空间扩展至包含所有类别导致性能显著下降——例如,AwA上的准确率从76.98%降至28.89%,原因是大空间中训练类与测试类之间产生混淆。
  • 在ReViSE的CUB基准上,该方法达到85.2%的准确率,与ReViSE的86.2%非常接近,表明其在最先进方法中具有强大竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。