[论文解读] UniHetCO: A Unified Heterogeneous Representation for Multi-Problem Learning in Unsupervised Neural Combinatorial Optimization
UniHetCO 将多个组合优化问题统一到单一异构图表示和无监督的基于 QUBO 的损失,并通过基于梯度范数的动态加权实现稳定的多问题训练与强的跨问题适应性。
Unsupervised neural combinatorial optimization (NCO) offers an appealing alternative to supervised approaches by training learning-based solvers without ground-truth solutions, directly minimizing instance objectives and constraint violations. Yet for graph node subset-selection problems (e.g., Maximum Clique and Maximum Independent Set), existing unsupervised methods are typically specialized to a single problem class and rely on problem-specific surrogate losses, which hinders learning across classes within a unified framework. In this work, we propose UniHetCO, a unified heterogeneous graph representation for constrained quadratic programming-based combinatorial optimization that encodes problem structure, objective terms, and linear constraints in a single input. This formulation enables training a single model across multiple problem classes with a unified label-free objective. To improve stability under multi-problem learning, we employ a gradient-norm-based dynamic weighting scheme that alleviates gradient imbalance among classes. Experiments on multiple datasets and four constrained problem classes demonstrate competitive performance with state-of-the-art unsupervised NCO baselines, strong cross-problem adaptation potential, and effective warm starts for a commercial classical solver under tight time limits.
研究动机与目标
- 在无真实解的无监督 setting 下,激励解决多个图节点子集选择问题。
- 开发统一的输入表示,编码跨问题类别的问题结构、目标项和线性约束。
- 在若干问题类别上训练单一模型,使用无标签通用损失。
- 在多领域学习中通过基于梯度范数的动态权重机制来解决梯度不平衡问题。
提出的方法
- 提出统一的异构输入表示,将问题图、目标图、约束超图编码为单一异构图。
- 将学习目标公式化为一个通用的基于 QUBO 的无监督损失,结合目标惩罚和约束惩罚。
- 使用带有独立消息传递通道的多关系 GNN 来处理问题结构、目标耦合和约束入射,随后进行融合并通过 FCN 进行放松选择。
- 在训练阶段应用基于梯度范数的动态加权(受 GradNorm 启发)来平衡来自多个问题类别的贡献。
- 以无标签的无监督方式进行训练,通过最小化放松目标和约束惩罚,在推理阶段投影到可行的离散解。

实验结果
研究问题
- RQ1单一统一的代理损失是否能够在不同的 CO 类别之间匹配面向问题特定的代理损失?
- RQ2在统一损失下,多问题训练与单问题训练之间的权衡是什么?
- RQ3模型在零-shot 或少样本设置下对未见问题类别的泛化程度有多大?
- RQ4在时间限制严格的情况下,模型预测作为经典求解器的暖启动有多有效?
主要发现
- 统一的异构图表示可以在多个 CO 问题类别之间训练单一模型,并使用通用的基于 QUBO 的无监督损失。
- 动态梯度归一化通过在问题类别之间平衡梯度贡献来稳定多问题学习。
- UniHetCO 框架在多个数据集和问题类别上实现了与最先进无监督基线的竞争性性能。
- 多问题训练在某些情况下提供强大的跨问题适应性,但在其他情况下会因问题类别和数据集而产生权衡。
- 在短时间限制下,来自 UniHetCO 的预测解可以作为 Gurobi 求解器的有效暖启动。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。