[论文解读] Transductive Zero-Shot Learning with Visual Structure Constraint
本文在 transductive zero-shot learning 场景中提出三种视觉结构约束(Chamfer-distance、bipartite matching 和 Wasserstein distance),将合成的 unseen-class centers 与真实视觉簇对齐,从而改善 projection learning,并处理带有不相关图像的未标记测试数据。
To recognize objects of the unseen classes, most existing Zero-Shot Learning(ZSL) methods first learn a compatible projection function between the common semantic space and the visual space based on the data of source seen classes, then directly apply it to the target unseen classes. However, in real scenarios, the data distribution between the source and target domain might not match well, thus causing the well-known extbf{domain shift} problem. Based on the observation that visual features of test instances can be separated into different clusters, we propose a new visual structure constraint on class centers for transductive ZSL, to improve the generality of the projection function (i.e. alleviate the above domain shift problem). Specifically, three different strategies (symmetric Chamfer-distance, Bipartite matching distance, and Wasserstein distance) are adopted to align the projected unseen semantic centers and visual cluster centers of test instances. We also propose a new training strategy to handle the real cases where many unrelated images exist in the test dataset, which is not considered in previous methods. Experiments on many widely used datasets demonstrate that the proposed visual structure constraint can bring substantial performance gain consistently and achieve state-of-the-art results. The source code is available at \url{https://github.com/raywzy/VSC}.
研究动机与目标
- 通过利用测试数据的视觉结构来解决 zero-shot learning 中的领域偏移。
- 通过将投影后的 unseen semantic centers 与真实的 visual centers 对齐,提升投影学习。
- 处理测试集中存在大量不相关图像的现实场景。
- 通过避免对新数据进行批量再优化,实现在线、可扩展的 transductive ZSL。
提出的方法
- 使用两层嵌入网络将 unseen class semantics 投射到视觉嵌入空间。
- 训练时使用源域投影约束以及将 synthetic centers 对齐到 real visual centers 的 visual-structure constraint。
- 三种约束变体:Chamfer-distance 基于视觉结构约束 (CDVSc)、Bipartite-matching 基于视觉结构约束 (BMVSc)、Wasserstein-distance 基于视觉结构约束 (WDVSc)。
- CDVSc 使用对称 Chamfer distance 介于 synthetic centers 与 unseen data 的 K-means 聚类中心之间;损失函数在中心之间增加 L2 距离。
- BMVSc 将一对一分配建模为由 Kuhn–Munkres 算法求解的最小权重完全匹配;损失将 MSE 与该分配结合。
- WDVSc 使用熵正则化最优传输(Sinkhorn)以实现软分配并稳定对齐。
实验结果
研究问题
- RQ1是否可以利用 unseen-class 测试数据的视觉结构来提升 transductive ZSL 的投影学习?
- RQ2Chamfer、bipartite matching 和 Wasserstein-based 约束在各基准数据集上是否提供一致的性能提升?
- RQ3该方法如何处理包含不相关图像的现实测试数据?
- RQ4该方法在不同语义空间(属性与词向量)以及变化的簇数 K 下是否有效?
主要发现
- 所提出的 visual-structure 约束在常规和广义 ZSL 设置下于多个数据集相较于现有方法取得显著的性能提升。
- 三种约束(CDVSc、BMVSc、WDVSc)在准确率上均有一致提升,WDVSc 常常达到最优结果。
- 一种新的训练策略使方法能够在测试数据包含不相关图像的现实场景中工作,同时保持性能。
- 该方法对不同语义空间显示出鲁棒性,包括基于词向量的空间;并且在较大 K(更细的视觉结构)下受益,直至数据集的上限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。