Skip to main content
QUICK REVIEW

[论文解读] Domain-Invariant Projection Learning for Zero-Shot Recognition

An Zhao, Mingyu Ding|arXiv (Cornell University)|Oct 19, 2018
Domain Adaptation and Few-Shot Learning被引用 41
一句话总结

提出域不变投影学习(DIPL)用于零样本识别,通过结合正向/反向投影、域不变自重建任务和基于超类的域对齐,并通过新颖的迭代求解器优化。它在标准、纯粹和广义ZSL设置中实现了最先进的结果。

ABSTRACT

Zero-shot learning (ZSL) aims to recognize unseen object classes without any training samples, which can be regarded as a form of transfer learning from seen classes to unseen ones. This is made possible by learning a projection between a feature space and a semantic space (e.g. attribute space). Key to ZSL is thus to learn a projection function that is robust against the often large domain gap between the seen and unseen classes. In this paper, we propose a novel ZSL model termed domain-invariant projection learning (DIPL). Our model has two novel components: (1) A domain-invariant feature self-reconstruction task is introduced to the seen/unseen class data, resulting in a simple linear formulation that casts ZSL into a min-min optimization problem. Solving the problem is non-trivial, and a novel iterative algorithm is formulated as the solver, with rigorous theoretic algorithm analysis provided. (2) To further align the two domains via the learned projection, shared semantic structure among seen and unseen classes is explored via forming superclasses in the semantic space. Extensive experiments show that our model outperforms the state-of-the-art alternatives by significant margins.

研究动机与目标

  • 通过在已见与未见类别之间存在的大域差距来激发零样本识别的动机。
  • 学习一个鲁棒的特征空间与语义空间之间的投影,以最小化域移位。
  • 引入一个域不变的特征自重建任务,以实现最小-最小优化框架。
  • 利用语义空间中的共享超类来对齐已见与未见域。
  • 提供一个可扩展的可传输学习方法,并附带理论分析和大量实验。

提出的方法

  • 将ZSL表述为一个最小-最小优化问题,使用前向投影 W^T x -> y 和逆投影 x -> W y,具有共享正则化项和重建损失。
  • 引入一个域不变的视觉特征自重建任务,以强制特征表示与语义表示之间的双向一致性。
  • 通过对未标记测试实例在未见类别原型上进行 min_j 的优化来应用传导学习。
  • 在语义空间通过 k-means 聚类生成超类,以在已见与未见类别之间共享结构,并通过这些超类对齐域。
  • 通过迭代求解 Sylvester 方程 A^(t) W^(t+1) + W^(t+1) B^(t) = C^(t),给出一个更新 eta、A、B、C 的算法,并使用 Bartels-Stewart 进行高效求解。
  • 提供收敛性分析并讨论时间复杂性,显示每轮线性扩展且收敛迅速(≤5 次迭代)。
  • 将DIPL扩展到带超类的ZSL,通过将原型聚类为 r 组并在对原始语义原型进行微调前,利用超类结构来 refine 预测。

实验结果

研究问题

  • RQ1如何在零样本识别中有效缩小已见与未见类别之间的域差距?
  • RQ2强制双向投影(前向和逆向)是否能提升对未见类别的泛化能力?
  • RQ3传导学习加共享语义超类是否比以往方法更能对齐已见与未见域?
  • RQ4所提出的最小-最小优化求解器的收敛性与可扩展性如何?
  • RQ5DIPL框架是否可扩展到带超类的ZSL并提高在大规模数据集上的表现?

主要发现

  • DIPL在五个基准数据集上,标准、纯粹和广义ZSL设置下持续达到最先进的结果。
  • 域不变自重建与基于超类的域对齐的组合相较强基线带来显著改进,在中等规模数据集上尤其显著。
  • 对于最小-最小目标的提出的迭代求解器收敛迅速(≤5 次迭代),并将域差距收敛至上界解的路径收窄。
  • 结合超类的DIPL进一步提升性能,使未见类别样本在超类层面变为“已见”,并指导在语义原型层面的细化。
  • 在大规模的 ImNet 上,DIPL 相较 SAE 展现显著改进,体现对大数据的可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。