Skip to main content
QUICK REVIEW

[论文解读] Co-Attentive Equivariant Neural Networks: Focusing Equivariance On Transformations Co-Ocurring in Data

David W. Romero Guzmán, Mark Hoogendoorn|arXiv (Cornell University)|Apr 30, 2020
Human Pose and Action Recognition参考文献 34被引用 7
一句话总结

本文提出共注意力等变神经网络,通过动态关注数据中共同出现的变换,提升参数效率和识别性能。通过聚焦于相关变换组合而非所有可能的群元素,该模型在部分旋转和完全旋转设置下的旋转MNIST和CIFAR-10数据集上均优于传统等变网络。

ABSTRACT

Equivariance is a nice property to have as it produces much more parameter efficient neural architectures and preserves the structure of the input through the feature mapping. Even though some combinations of transformations might never appear (e.g. a face with a horizontal nose) current equivariant architectures consider the set of all possible transformations in the transformation group while generating feature representations. Contrarily, the human visual system is able to attend to the set of relevant transformations occurring in the environment as to assist and improve object recognition. Based on this observation, we modify conventional equivariant feature mappings such that they are able to attend to the set of co-occurring transformations in data. Our experiments show that neural networks utilizing co-attentive equivariant feature mappings consistently outperform those utilizing conventional ones both for fully (rotated MNIST) and partially (CIFAR-10) rotational settings.

研究动机与目标

  • 解决传统等变网络效率低下的问题,即无论数据中是否共同出现,均考虑所有可能的变换。
  • 建模人类对视觉输入中相关变换组合的注意力机制,以提升物体识别性能。
  • 开发一种神经架构,学习数据中哪些变换是联合存在的,以增强特征表示学习。
  • 通过仅将等变性限制在真实数据中共同出现的变换集合上,提升泛化能力和参数效率。

提出的方法

  • 引入一种共注意力机制,学习关注输入数据中共同出现的变换子集。
  • 修改标准等变特征映射,使其基于所关注的变换集合而非整个变换群进行条件计算。
  • 使用可学习的注意力权重,在特征提取过程中动态选择相关变换组合。
  • 在变换群元素上应用注意力机制,仅聚焦于训练数据中实际共同出现的变换。
  • 将所关注的变换集合集成到等变消息传递机制中,生成对变换敏感的特征。
  • 采用标准反向传播进行端到端训练,联合优化注意力机制与特征学习。

实验结果

研究问题

  • RQ1聚焦于数据中共同出现的变换是否能提升等变神经网络的性能?
  • RQ2对变换集合的注意力机制如何影响等变模型的泛化能力和参数效率?
  • RQ3共注意力等变性是否能在具有部分或完全旋转不变性的数据集上带来更好的性能?
  • RQ4该模型的注意力机制是否与人类视觉对变换组合的注意力对齐?
  • RQ5所提出方法是否能超越对所有群元素一视同仁的标准等变网络?

主要发现

  • 所提出的共注意力等变网络在旋转MNIST上持续优于传统等变网络。
  • 在CIFAR-10的部分旋转设置下,该模型优于标准等变基线模型,表现出对不完整变换集合更强的鲁棒性。
  • 注意力机制成功识别并聚焦于数据中实际共同出现的相关变换组合。
  • 由于仅对有意义的变换群进行聚焦等变,模型以更少的有效参数实现更好的泛化能力。
  • 实验结果证实,关注共同出现的变换能生成比均匀处理所有群元素更高效、更准确的特征表示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。