Skip to main content
QUICK REVIEW

[论文解读] Molecular Representations in Implicit Functional Space via Hyper-Networks

Zehong Wang, Xiaolong Han|arXiv (Cornell University)|Jan 29, 2026
Machine Learning in Materials Science被引用 0
一句话总结

该论文提出 MolField,一种用于分子的函数空间表示,其中每个分子被建模为通过规范的隐式神经表示学习的连续三维场,由函数空间超网络进行学习,以实现跨动力学和性质的任务无关学习。

ABSTRACT

Molecular representations fundamentally shape how machine learning systems reason about molecular structure and physical properties. Most existing approaches adopt a discrete pipeline: molecules are encoded as sequences, graphs, or point clouds, mapped to fixed-dimensional embeddings, and then used for task-specific prediction. This paradigm treats molecules as discrete objects, despite their intrinsically continuous and field-like physical nature. We argue that molecular learning can instead be formulated as learning in function space. Specifically, we model each molecule as a continuous function over three-dimensional (3D) space and treat this molecular field as the primary object of representation. From this perspective, conventional molecular representations arise as particular sampling schemes of an underlying continuous object. We instantiate this formulation with MolField, a hyper-network-based framework that learns distributions over molecular fields. To ensure physical consistency, these functions are defined over canonicalized coordinates, yielding invariance to global SE(3) transformations. To enable learning directly over functions, we introduce a structured weight tokenization and train a sequence-based hyper-network to model a shared prior over molecular fields. We evaluate MolField on molecular dynamics and property prediction. Our results show that treating molecules as continuous functions fundamentally changes how molecular representations generalize across tasks and yields downstream behavior that is stable to how molecules are discretized or queried.

研究动机与目标

  • 从离散的分子表示(序列、图、点云)转向在函数空间中的连续分子场的动机。
  • 定义一个规范的、SE(3) 不变的分子函数作为主要表示对象。
  • 开发 MolField,具有规范隐式神经表示(C-INR)、结构化权重标记(SWT)以及函数空间超网络(FSHN)。
  • 证明函数空间表示在任务间具有泛化能力,并对离散化和查询方案具有鲁棒性。

提出的方法

  • 使用 C-INR 将分子表示为在三维空间上的连续函数,以通过规范坐标实现 SE(3) 不变。
  • 从旋转等变特征构建规范框架 Q(X),将查询映射到固定的规范坐标系统。
  • 通过结构化权重标记暴露 C-INR 参数,以实现对函数参数的基于 transformer 的处理。
  • 训练一个函数空间超网络,在潜在变量 z 的条件下生成 C-INR 参数,端到端地建模分子函数的分布。
  • 用任务特定损失进行训练(MD:SDF + Eikonal;性质:回归的聚合 INR 令牌;生成:密度匹配),并通过 INR 和超网络进行反向传播。
  • 在推理时,在函数空间中生成分子函数,并为下游任务进行查询,而不需要对每个实例进行优化。

实验结果

研究问题

  • RQ1分子是否可以作为对三维空间的 SE(3) 不变的连续函数进行有效表示,而非离散结构?
  • RQ2通过超网络学习分子函数分布是否能在分子动力学和性质预测任务上改善泛化?
  • RQ3将规范隐式表示与结构化标记相结合是否能实现鲁棒、与离散化无关的学习?
  • RQ4函数空间表示是否能提高分子动力学中的数据效率和长期预测性能?
  • RQ5INR 重构保真度与下游性质预测精度之间是否存在可测量的联系?

主要发现

  • MolField 在多条轨迹的分子动力学表面重建方面实现了最佳平均性能。
  • MolField 在 QM9 的时空性质目标上得到更低的 MAE,尤其在 HOMO 相关和极化率相关性质上,同时在其他目标上保持竞争力。
  • 消融研究表明移除 C-INR、SWT 或 FSHN 组件会降低性能,突出联合设计的重要性。
  • MolField 展示出更好的数据效率,由于函数空间先验的摊销,在较少训练数据下也能维持性能。
  • MolField 的长时域预测比逐轨迹的隐式网络更准确、更加稳定,表明更好的时序泛化。
  • 函数保真度(INR 重构损失)与下游性质误差之间存在相关性,且在分子生成任务上对 INR 的预训练强化了这一关系。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。