[论文解读] Weakly-supervised Compositional FeatureAggregation for Few-shot Recognition
本文提出组合特征聚合(CFA)模块,一种弱监督、即插即用的组件,通过在深度特征中强制实施语义和空间组合性,提升少样本识别性能。通过将特征图解耦为独立的语义子空间,并在每个子空间内应用双线性聚合,CFA 在无需属性或部件标注的情况下提升泛化能力,在图像和动作识别基准上实现最先进性能。
Learning from a few examples is a challenging task for machine learning. While recent progress has been made for this problem, most of the existing methods ignore the compositionality in visual concept representation (e.g. objects are built from parts or composed of semantic attributes), which is key to the human ability to easily learn from a small number of examples. To enhance the few-shot learning models with compositionality, in this paper we present the simple yet powerful Compositional Feature Aggregation (CFA) module as a weakly-supervised regularization for deep networks. Given the deep feature maps extracted from the input, our CFA module first disentangles the feature space into disjoint semantic subspaces that model different attributes, and then bilinearly aggregates the local features within each of these subspaces. CFA explicitly regularizes the representation with both semantic and spatial compositionality to produce discriminative representations for few-shot recognition tasks. Moreover, our method does not need any supervision for attributes and object parts during training, thus can be conveniently plugged into existing models for end-to-end optimization while keeping the model size and computation cost nearly the same. Extensive experiments on few-shot image classification and action recognition tasks demonstrate that our method provides substantial improvements over recent state-of-the-art methods.
研究动机与目标
- 通过模仿人类对部件和属性的组合方式建模视觉概念,提升少样本识别性能。
- 解决现有方法因池化操作而损失空间或语义结构,或需要昂贵属性标注的局限性。
- 开发一种即插即用模块,通过弱监督组合性正则化增强深度网络。
- 实现在不增加模型大小或计算成本的前提下端到端训练。
- 在通用和细粒度少样本分类任务(包括动作识别)上验证方法的有效性。
提出的方法
- CFA模块将特征空间解耦为N个互不相交的语义子空间,以建模不同的属性或部件。
- 在每个子空间内,应用双线性聚合以提取二阶统计量并捕获空间结构,替代简单的均值/最大池化。
- 通过损失函数中的正交性约束,鼓励语义原型之间的差异性。
- 最终描述符通过拼接所有子空间的聚合特征生成,形成具有判别力的组合表示。
- 该模块以端到端方式训练,无需属性或部件标注,实现弱监督。
- CFA被设计为兼容现有模型的即插即用层,保持模型大小和推理成本不变。
实验结果
研究问题
- RQ1在深度特征中同时强制语义和空间组合性是否能提升少样本识别性能?
- RQ2是否可以在无需属性或部件标注的情况下有效学习组合性?
- RQ3语义子空间数量(N)对不同数据集的性能有何影响?
- RQ4所提出的CFA模块在不同领域之间(如通用分类到细粒度分类)是否具有良好泛化能力?
- RQ5正交性正则化权重(γ)如何影响具有不同类内与类间方差的数据集上的表示质量?
主要发现
- 在miniImageNet上,CFA(N=64)在1-shot设置下达到44.2%的准确率,优于先前最先进方法。
- 在CUB数据集上,CFA(N=64)在5-shot设置下达到66.0%的准确率,展现出在细粒度分类任务中的强大性能。
- 在动作识别任务中,CFA(N=64)在Jester数据集上1-shot设置下达到23.9%的准确率,表明其在视频任务中的有效性。
- 消融实验表明,语义子空间内的双线性聚合(CFA,N=64)显著优于简单池化(CFA,N=1),尤其在1-shot学习中表现更优。
- 跨域迁移结果表明,CFA泛化能力优于基线方法:在IMN→CUB设置下,CFA(N=64)达到44.2% vs. MatchingNet的37.4%。
- 最优子空间数量(N)因数据集而异:CUB上N=64,Jester上N=4时性能达到峰值,表明最优属性分组具有数据集特异性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。