[论文解读] Training-free Composition of Pre-trained GFlowNets for Multi-Objective Generation
提出一种在推断阶段混合预训练的 GFlowNets 的训练-free 框架,以处理多目标生成,对线性标量化具有完全性、对非线性算子具有近似控制;在合成网格和真实世界分子生成任务中进行验证。
Generative Flow Networks (GFlowNets) learn to sample diverse candidates in proportion to a reward function, making them well-suited for scientific discovery, where exploring multiple promising solutions is crucial. Further extending GFlowNets to multi-objective settings has attracted growing interest since real-world applications often involve multiple, conflicting objectives. However, existing approaches require additional training for each set of objectives, limiting their applicability and incurring substantial computational overhead. We propose a training-free mixing policy that composes pre-trained GFlowNets at inference time, enabling rapid adaptation without finetuning or retraining. Importantly, our framework is flexible, capable of handling diverse reward combinations ranging from linear scalarization to complex non-linear logical operators, which are often handled separately in previous literature. We prove that our method exactly recovers the target distribution for linear scalarization and quantify the approximation quality for nonlinear operators through a distortion factor. Experiments on a synthetic 2D grid and real-world molecule-generation tasks demonstrate that our approach achieves performance comparable to baselines that require additional training.
研究动机与目标
- 在科学发现领域(如分子、图)中需要灵活的多目标生成,因为目标之间常常存在冲突时,具有动机性。
- 在推断时开发一个无训练框架,将预训练 GFlowNets 组合起来以覆盖多样的奖励组合。
- 为线性标量化提供对目标分布的完全性理论保证,并量化对非线性算子的近似。
- 在合成与真实世界的分子生成任务中展示无需再训练的实际性能。
提出的方法
- 定义混合策略,使用状态到达概率作为权重,将来自多个预训练 GFlowNets 的前向转移概率进行组合。
- 将混合表示为 p_M,F(s'|s) 与 G(u_1(s)p_1,F(s'|s),…,u_k(s)p_k,F(s'|s)) 成正比,并对局部归一化 N_M(s) 进行归一化。
- 通过利用状态流 F_i(s) 和在 GFlowNet 训练期间学习的总流 Z_i,高效计算到达概率 u_i(s)。
- 通过混合规则(P=ω加权的奖励和)证明线性标量化下目标分布的完全恢复。
- 分析扭曲 δ(x)=u_M(x)/N_M(x) 以界定非线性算子的近似误差。
- 在 32x32 的合成网格上对标量化和逻辑算子进行经验验证,以及在片段和原子级的分子生成任务(SEH、SA、QED、GAP)上用真实奖励进行验证。

实验结果
研究问题
- RQ1一个无需训练的预训练 GFlowNets 混合是否能够实现由任意奖励组合定义的多目标分布?
- RQ2在什么条件下混合策略能准确恢复目标分布,对于非线性组合算子又如何表现?
- RQ3该方法在目标数量增加、以及标量化与逻辑算子组合下的可扩展性如何?
- RQ4在实际分子生成任务中,与需要重新训练的基线相比,训练-free 组合在样本质量和推断速度方面是否有提升?
主要发现
| 2 Obj. | 3 Obj. | 4 Obj. | 5 Obj. | |
|---|---|---|---|---|
| MOGFN | 0.021 | 0.027 | 0.042 | 0.048 |
| HN-GFN | 0.017 | 0.021 | 0.032 | 0.035 |
| Ensemble | 0.117 | 0.098 | 0.113 | 0.111 |
| Ours | 0.003 | 0.003 | 0.003 | 0.003 |
- 对于线性标量化,混合策略能准确实现目标分布 p_M*(x) ∝ ∑_i ω_i R_i(x)。
- 对于非线性算子,该方法在高奖励区域的扭曲 δ(x) 接近 1/Z_M,导致在关键区域的采样具有较高准确性。
- 在合成二维网格上,随着目标数增加(2–5 个目标),该方法的 L1 误差显著低于偏好条件化基线。
- 对于逻辑算子,混合策略在性能上与分类器引导的基线相匹配,同时避免额外训练并提供更快的推断速度。
- 在分子生成方面,训练-free 的混合与需要再训练的基线相比表现相同或更好,且对逻辑算子组合的推断速度更快。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。