Skip to main content
QUICK REVIEW

[论文解读] Generalizing Convolutional Neural Networks for Equivariance to Lie Groups on Arbitrary Continuous Data

Marc Finzi, Samuel Stanton|arXiv (Cornell University)|Feb 25, 2020
Machine Learning in Materials Science参考文献 47被引用 73
一句话总结

该论文提出 LieConv,它是一种卷积层,能够对任何具备满射指数映射的李群的变换实现等变性,从而用单一架构处理任意连续空间数据(如图像、分子、动力系统)。它在图像和分子任务上展示竞争力或最先进的结果,并在哈密尔顿系统中实现精确动量守恒。

ABSTRACT

The translation equivariance of convolutional layers enables convolutional neural networks to generalize well on image problems. While translation equivariance provides a powerful inductive bias for images, we often additionally desire equivariance to other transformations, such as rotations, especially for non-image data. We propose a general method to construct a convolutional layer that is equivariant to transformations from any specified Lie group with a surjective exponential map. Incorporating equivariance to a new group requires implementing only the group exponential and logarithm maps, enabling rapid prototyping. Showcasing the simplicity and generality of our method, we apply the same model architecture to images, ball-and-stick molecular data, and Hamiltonian dynamical systems. For Hamiltonian systems, the equivariance of our models is especially impactful, leading to exact conservation of linear and angular momentum.

研究动机与目标

  • 激励并形式化一个通用框架,用于在表示为坐标和值的任意连续空间数据上构建等变模型。
  • 开发 LieConv,这是一个对李群变换通过指数/对数映射实现等变性的卷积层。
  • 通过仅需要群指数和对数映射来引入新对称性,从而实现快速原型设计。
  • 在多样化领域(图像、分子数据、动力系统)中展示该方法在单一架构下的表现。

提出的方法

  • 将 LieConv 定义为在李群上的卷积,其核 k_theta 通过指数/对数映射映射到李代数。
  • 通过选择原点并对群元素进行采样,将来自空间 X 的输入数据提升到 G 或轨道上(提升过程)。
  • 将核 k_theta 参数化为在李代数上的神经网络,以处理连续群元素。
  • 使用距离 d(u,v)=||log(u^{-1}v)||_F 来限制卷积的作用域,以实现局部性。
  • 使用对邻域的蒙特卡洛估计离散化群卷积,以在分布层面保持等变性。
  • 将提升扩展到群在 X(或 X/G)上以多轨道作用的情况,并将轨道信息并入核中。
Figure 5: A visual overview of the LieConv model architecture, which is composed of $L$ LieConv bottleneck blocks that couple the values at different group elements together. The BottleBlock is a residual block with a LieConv layer between two linear layers.
Figure 5: A visual overview of the LieConv model architecture, which is composed of $L$ LieConv bottleneck blocks that couple the values at different group elements together. The BottleBlock is a residual block with a LieConv layer between two linear layers.

实验结果

研究问题

  • RQ1是否有一个单一的神经网络架构,利用李群理论,能够实现在非网格数据上对来自任意李群的变换的等变性?
  • RQ2如何高效地将任意连续空间数据提升到群上,并在群上定义一个局部的、可微的等变核?
  • RQ3所提出的 LieConv 方法在保持物理对称性的同时,是否在图像、分子和动力系统任务上获得具有竞争力或优越的性能?
  • RQ4通过强制适当的李群对称性,是否可以在哈密顿系统中实现准确的守恒定律(如线动量和角动量)?

主要发现

  • LieConv 在 RotMNIST 和 QM9 上取得了具有竞争力的结果,在某些 QM9 任务上达到最先进的性能。
  • 使用 T(3)、SE(3) 等李群等变性,相较于基线提升分子性质预测的性能。
  • 当施加适当的对称性(平移/旋转)时,LieConv 使哈密顿系统建模中线性和角动量得以精确守恒。
  • 基于单一的 LieConv 架构可跨图像、分子和动力系统应用,且具有强大的经验性能。
Generalizing Convolutional Neural Networks for Equivariance to Lie Groups on Arbitrary Continuous Data

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。