Skip to main content
QUICK REVIEW

[论文解读] Meta-Learning Symmetries by Reparameterization

Allan Zhou, Tom Knowles|arXiv (Cornell University)|Jul 6, 2020
Domain Adaptation and Few-Shot Learning参考文献 54被引用 24
一句话总结

该论文提出了一种元学习框架,通过重新参数化层权重,自动发现并编码神经网络中的等变性诱导参数共享模式。通过从数据中学习这些模式,该方法在图像基准上实现了最先进的 few-shot 泛化性能,优于标准元学习方法和手工设计的等变神经网络架构。

ABSTRACT

Many successful deep learning architectures are equivariant to certain transformations in order to conserve parameters and improve generalization: most famously, convolution layers are equivariant to shifts of the input. This approach only works when practitioners know the symmetries of the task and can manually construct an architecture with the corresponding equivariances. Our goal is an approach for learning equivariances from data, without needing to design custom task-specific architectures. We present a method for learning and encoding equivariances into networks by learning corresponding parameter sharing patterns from data. Our method can provably represent equivariance-inducing parameter sharing for any finite group of symmetry transformations. Our experiments suggest that it can automatically learn to encode equivariances to common transformations used in image processing tasks. We provide our experiment code at https://github.com/AllanYangZhou/metalearning-symmetries.

研究动机与目标

  • 自动化发现深度学习模型中的等变性,而无需为每个任务手动设计网络结构。
  • 解决卷积神经网络中固定归纳偏置的局限性,后者依赖于对平移、旋转或反射等对称性的先验知识。
  • 通过从数据中学习参数共享模式,实现可迁移的、与任务无关的等变性,而非硬编码这些模式。
  • 通过元学习将对称性直接编码到网络权重结构中,从而提升 few-shot 泛化性能。
  • 提供一种可扩展且理论基础坚实的等变性学习方法,适用于任何有限对称群,通过重新参数化实现。

提出的方法

  • 重新参数化神经网络层,将参数共享模式表示为可学习结构,使模型能够自动发现诱导等变性的权重共享。
  • 使用元学习在任务分布上训练重新参数化的层,以优化对未见任务的泛化性能。
  • 将参数共享模式形式化为尊重对称群在输入空间上作用的结构化权重矩阵。
  • 利用群表示理论的理论结果,确保重新参数化的层能够为任意有限群可证明地表示等变变换。
  • 在元训练过程中集成数据增强,以鼓励对常见变换(如旋转、反射和缩放)的不变性。
  • 使用元学习目标训练模型,以最小化在多样化任务上的泛化误差,同时将对称性感知的参数共享作为关键归纳偏置。

实验结果

研究问题

  • RQ1神经网络能否在无架构先验的情况下,仅从数据中自动学习并编码常见数据变换(如旋转、反射、缩放)的等变性?
  • RQ2通过元学习学习参数共享模式,是否能比标准元学习或仅使用数据增强的方法带来更好的 few-shot 泛化性能?
  • RQ3所提出的方法能否仅从数据和元学习中恢复已知的等变神经网络架构(如 D8-等变卷积)?
  • RQ4该方法的性能如何随对称群复杂度和数据增强策略复杂度的增加而变化?
  • RQ5该方法能否通过保留学习到的等变性,在对称性未提前明确已知的情况下泛化到新任务?

主要发现

  • 所提出的 MSR(元学习对称性重参数化)方法在 Aug-Omniglot 和 Aug-MiniImageNet 基准上均达到最先进性能,优于 MAML、ANIL、ProtoNets,甚至优于手工设计的 D8-等变模型。
  • 在 5 类 1 样本 few-shot 分类任务中,MSR 在 Aug-Omniglot 上达到 95.3% 的准确率,在 Aug-MiniImageNet 上达到 45.5%,优于 MAML(89.3%)和 MAML+D8(94.6%)在相同任务上的表现。
  • MSR 在参数量更少的情况下,泛化性能优于更大的 MAML 模型(MAML Big),表明其样本效率更高。
  • 该方法成功学习到编码旋转、反射和缩放等对称性,而这些对称性在标准架构中并未显式构建。
  • MSR 在更具挑战性的 Aug-MiniImageNet 基准上优于 ProtoNets,表明学习等变结构比学习不变度量空间更有效。
  • 重参数化机制实现了跨任务的可迁移对称性,保留了学习到的等变性,从而在低数据场景下提升了泛化性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。