[论文解读] Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization
本文提出Ranked Reward(R2),一种新颖的强化学习算法,通过在多轮次中对智能体表现进行排序,为单玩家组合优化问题构建相对奖励信号,从而实现类似自对弈的训练。R2在二维和三维装箱问题上优于启发式方法、MCTS和整数规划求解器,当采用第75百分位数排名阈值时,在大规模实例上相较Gurobi实现最高15%的性能提升。
Adversarial self-play in two-player games has delivered impressive results when used with reinforcement learning algorithms that combine deep neural networks and tree search. Algorithms like AlphaZero and Expert Iteration learn tabula-rasa, producing highly informative training data on the fly. However, the self-play training strategy is not directly applicable to single-player games. Recently, several practically important combinatorial optimisation problems, such as the travelling salesman problem and the bin packing problem, have been reformulated as reinforcement learning problems, increasing the importance of enabling the benefits of self-play beyond two-player games. We present the Ranked Reward (R2) algorithm which accomplishes this by ranking the rewards obtained by a single agent over multiple games to create a relative performance metric. Results from applying the R2 algorithm to instances of a two-dimensional and three-dimensional bin packing problems show that it outperforms generic Monte Carlo tree search, heuristic algorithms and integer programming solvers. We also present an analysis of the ranked reward mechanism, in particular, the effects of problem instances with varying difficulty and different ranking thresholds.
研究动机与目标
- 将此前仅适用于双人游戏的自对弈强化学习优势拓展至单玩家组合优化问题。
- 解决NP难优化问题中缺乏可扩展、通用方法的问题,避免依赖专家数据或昂贵求解器。
- 设计一种通过相对表现排序提供信息性、自适应监督的训练课程,模拟竞争性自对弈机制。
- 评估不同排名阈值对装箱任务中学习稳定性与解质量的影响。
提出的方法
- R2将装箱问题建模为单玩家马尔可夫决策过程(MDP),结合蒙特卡洛树搜索(MCTS)实现策略改进,支持深度强化学习。
- 采用深度神经网络同时估计策略函数与价值函数,实现在大规模动作空间中的样本高效学习。
- 核心创新在于Ranked Reward(R2)机制:对近期回合的回报进行排序,并根据排名分配二元奖励(前α%的回合得1.0,其余得0.0),从而构建相对表现信号。
- 算法维护一个历史回合经验回放缓冲区,并根据当前表现分布定期重新排序奖励,形成随时间自适应演化的训练课程。
- 该方法应用于具有不同物品数量(10–50)的二维和三维装箱问题,采用固定网络架构与带探索奖励的MCTS。
- 排名阈值α(如50%、75%、90%)控制相对对手的难度,α值越高,获得正奖励越难,从而提升学习压力。
实验结果
研究问题
- RQ1能否在无外部对手或专家数据的情况下,有效合成单玩家组合优化问题中的类似自对弈训练信号?
- RQ2排名阈值α的选择如何影响装箱任务中学习过程的稳定性与收敛速度?
- RQ3R2算法在解质量与可扩展性方面是否优于MCTS、启发式方法和整数规划求解器等既有基线方法?
- RQ4在不同难度与实例规模的问题中,特别是高维装箱场景下,R2机制的表现如何?
- RQ5在奖励排序机制中,采用不同百分位阈值(如50% vs. 75% vs. 90%)时,学习速度与最终性能之间的权衡如何?
主要发现
- R2在二维和三维装箱问题上均优于无排名基线、MCTS、Lego启发式方法以及带障碍函数的线性规划方法。
- 当采用第75百分位数排名阈值时,R2在平均性能上相较Gurobi求解器提升超过6%,在含50个物品的大规模实例上最高提升达15%。
- 75%排名情况在学习速度与稳定性之间达到最佳平衡,最优解被持续识别,而次优解基本被排除在正反馈循环之外。
- 50%阈值导致收敛缓慢,因一半经验缓冲区无论质量高低均获得1.0奖励,造成对次优解的过度正反馈。
- 90%阈值导致收敛更慢且最终性能更弱,因正反馈稀疏,使智能体难以学习到显著优于平均水平的表现。
- 奖励分布分析表明,较高阈值(75%与90%)可带来更快的初始性能提升,但90%引入不稳定性,并残留大量低奖励回合,阻碍最终性能表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。