[论文解读] Independent Prototype Propagation for Zero-Shot Compositionality
该论文提出ProtoProp,一种用于组合零样本学习的新型原型传播方法,通过学习对象和属性的条件独立视觉原型,再通过组合图将它们结合,以识别未见的属性-对象组合。该方法在AO-Clevr和UT-Zappos数据集上实现了最先进性能,分别将调和平均准确率提升2.5%至20.2%和3.1%,且无需依赖外部嵌入或类别层次结构。
Humans are good at compositional zero-shot reasoning; someone who has never seen a zebra before could nevertheless recognize one when we tell them it looks like a horse with black and white stripes. Machine learning systems, on the other hand, usually leverage spurious correlations in the training data, and while such correlations can help recognize objects in context, they hurt generalization. To be able to deal with underspecified datasets while still leveraging contextual clues during classification, we propose ProtoProp, a novel prototype propagation graph method. First we learn prototypical representations of objects (e.g., zebra) that are conditionally independent w.r.t. their attribute labels (e.g., stripes) and vice versa. Next we propagate the independent prototypes through a compositional graph, to learn compositional prototypes of novel attribute-object combinations that reflect the dependencies of the target distribution. The method does not rely on any external data, such as class hierarchy graphs or pretrained word embeddings. We evaluate our approach on AO-Clever, a synthetic and strongly visual dataset with clean labels, and UT-Zappos, a noisy real-world dataset of fine-grained shoe types. We show that in the generalized compositional zero-shot setting we outperform state-of-the-art results, and through ablations we show the importance of each part of the method and their contribution to the final results.
研究动机与目标
- 为解决在缺乏训练样本的情况下识别新型属性-对象组合的挑战,尤其是在长尾数据分布下。
- 缓解训练数据中的虚假相关性,这些相关性会阻碍零样本学习中的泛化能力。
- 开发一种方法,独立利用视觉基元(对象和属性)的同时,仍能捕捉对未见类别具有意义的组合依赖关系。
- 消除对外部资源(如词嵌入或类别层次图)的依赖。
- 通过统一的、可微的框架,同时提升已见类和未见类的准确率,实现广义组合零样本学习。
提出的方法
- 该方法使用带有空间注意力池化的主干网络,学习视觉基元(对象和属性)的局部原型表示,以提取判别性区域。
- 通过希尔伯特-施密特独立性准则(HSIC)损失,强制对象和属性原型之间的条件独立性,从而减少虚假相关性。
- 通过建模共享属性与对象之间关系(如老虎和斑马都具有条纹)的组合图,传播原型,实现对新型类别的组合。
- 图神经网络(GNN)在原型图上执行消息传递,为已见和未见组合生成组合原型。
- 主干网络与原型损失和独立性损失端到端联合微调,使特征提取器能够学习到更具相关性的局部特征。
- 该方法仅使用图像级别的属性和对象标注,避免依赖外部语义或结构数据。
实验结果
研究问题
- RQ1我们能否通过为对象和属性学习条件独立的视觉原型,来提升组合零样本学习的性能?
- RQ2通过组合图传播独立原型,是否能提升对未见属性-对象组合的泛化能力?
- RQ3与保留虚假相关性的模型相比,独立性损失对已见类和未见类性能的影响如何?
- RQ4所提方法在不依赖外部语义或结构先验的情况下,相对于现有最先进方法的优越程度如何?
- RQ5各组件(局部原型、独立性损失、主干微调)对最终性能的贡献分别是什么?
主要发现
- 在AO-Clevr基准上,ProtoProp相较于最佳现有方法,将调和平均准确率提升了2.5%至20.2%,在最具挑战性的4:6划分上提升最大。
- 在UT-Zappos数据集上,ProtoProp相比先前最先进方法,将调和平均准确率提升了3.1%。
- 独立性损失至关重要:移除该损失后,性能显著下降,已见类和未见类准确率均下降超过10个百分点。
- 使用学习到的视觉原型作为节点特征,相比语义词嵌入(如word2vec)在调和平均准确率上高出2.5%。
- 即使不用于分类,训练局部原型也能提升主干网络的特征提取能力,平均使准确率提高0.8%。
- 该方法在主干网络冻结的情况下仍表现强劲,仅用极短时间即可达到完整方法94.8%的准确率,显示出其鲁棒性与高效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。