[论文解读] Semi-supervised Vocabulary-informed Learning
本文提出了一种半监督词汇信息学习(SS-Voc)框架,该框架通过将大规模语义词汇整合到最大边缘嵌入空间中,统一提升了监督学习、零样本学习和开放集图像识别的性能。通过在视觉特征与已标注原型及外部词汇原子之间施加距离约束,该模型在包含最多31万类的ImageNet和AwA数据集上实现了最先进性能,仅使用3,000个训练样本时,top-1准确率相比最佳竞争对手ConSE提升了3.43个百分点。
Despite significant progress in object categorization, in recent years, a number of important challenges remain, mainly, ability to learn from limited labeled data and ability to recognize object classes within large, potentially open, set of labels. Zero-shot learning is one way of addressing these challenges, but it has only been shown to work with limited sized class vocabularies and typically requires separation between supervised and unsupervised classes, allowing former to inform the latter but not vice versa. We propose the notion of semi-supervised vocabulary-informed learning to alleviate the above mentioned challenges and address problems of supervised, zero-shot and open set recognition using a unified framework. Specifically, we propose a maximum margin framework for semantic manifold-based recognition that incorporates distance constraints from (both supervised and unsupervised) vocabulary atoms, ensuring that labeled samples are projected closest to their correct prototypes, in the embedding space, than to others. We show that resulting model shows improvements in supervised, zero-shot, and large open set recognition, with up to 310K class vocabulary on AwA and ImageNet datasets.
研究动机与目标
- 解决零样本学习(ZSL)在有限标注数据下处理大规模开放词汇设置的局限性。
- 克服目标类别与源类别互不相交且互斥的限制性假设。
- 通过利用来自大规模词汇的外部语义知识,实现对未见类别的有效识别。
- 在单一学习框架下统一监督学习、零样本学习和开放集识别。
- 通过来自已标注数据和开放词汇原子的最大边缘约束,提升视觉-语义嵌入空间中的泛化能力和类别可分性。
提出的方法
- 在最大边缘框架内构建识别任务,以强制视觉特征与语义原型之间的几何分离。
- 通过距离约束将监督学习(已标注)和无监督学习(未见)的类别原型整合到嵌入空间中。
- 使用word2vec学习词汇原子之间的语义关系,从而实现从已见类别到未见类别的知识迁移。
- 训练一个视觉-语义嵌入函数 $ g(\mathbf{x}) $,将图像特征映射到共享嵌入空间,使原型之间实现最大分离。
- 在训练过程中引入基于开放词汇的约束,以提升泛化能力,即使目标类别无任何标注样本也有效。
- 通过t-SNE可视化和消融研究,验证完整模型(SS-Voc:full)相较于封闭词汇变体(SS-Voc:closed)的有效性。
实验结果
研究问题
- RQ1是否可以通过仅使用少量标注样本的统一框架,在监督学习、零样本学习和开放集识别任务中均提升性能?
- RQ2引入大规模开放词汇的语义原子如何影响视觉-语义嵌入的泛化能力和可分性?
- RQ3从外部词汇原子引入的最大边缘约束在多大程度上提升了对未见类别的识别准确率?
- RQ4在极端开放集条件下(最多31万个类别)模型表现如何?
- RQ5当在有限监督下训练时,该方法是否优于现有的最先进ZSL模型?
主要发现
- SS-Voc:full模型在仅使用3,000个训练样本的ImageNet上实现了8.9%的top-1准确率和14.9%的top-5准确率,相比ConSE(5.5%/7.8%)提升了3.43个百分点。
- 在使用全部ImageNet样本时,模型达到9.5%的top-1准确率和16.8%的top-5准确率,显著优于ConSE和DeViSE。
- 该模型在大规模开放词汇设置下表现出鲁棒性,在ImageNet和AwA上支持最多达31万个类别标签时仍保持高性能。
- t-SNE可视化结果表明,SS-Voc:full产生的类别聚类比SVR和SS-Voc:closed更紧凑、更分离,尤其在细粒度类别(如'persian_cat'和'raccoon')上表现更优。
- 由于引入了基于开放词汇的约束,模型减少了对未见类别的误分类——例如,能正确将'persian_cat'分类为波斯猫,而非误分类为'hamster'。
- 随着训练集规模增大,性能增益逐渐减弱,表明该方法的优势在低样本和开放集条件下最为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。