[论文解读] A Multi-task Selected Learning Approach for Solving 3D Flexible Bin Packing Problem
本论文提出了一种多任务选择学习框架(MTSL),联合学习物品序列和方向,以最小化3D柔性装箱的表面积,相较多基线有更好表现并在在线生产中显示增益。
A 3D flexible bin packing problem (3D-FBPP) arises from the process of warehouse packing in e-commerce. An online customer's order usually contains several items and needs to be packed as a whole before shipping. In particular, 5% of tens of millions of packages are using plastic wrapping as outer packaging every day, which brings pressure on the plastic surface minimization to save traditional logistics costs. Because of the huge practical significance, we focus on the issue of packing cuboid-shaped items orthogonally into a least-surface-area bin. The existing heuristic methods for classic 3D bin packing don't work well for this particular NP-hard problem and designing a good problem-specific heuristic is non-trivial. In this paper, rather than designing heuristics, we propose a novel multi-task framework based on Selected Learning to learn a heuristic-like policy that generates the sequence and orientations of items to be packed simultaneously. Through comprehensive experiments on a large scale real-world transaction order dataset and online AB tests, we show: 1) our selected learning method trades off the imbalance and correlation among the tasks and significantly outperforms the single task Pointer Network and the multi-task network without selected learning; 2) our method obtains an average 5.47% cost reduction than the well-designed greedy algorithm which is previously used in our online production system.
研究动机与目标
- 将3D柔性装箱问题(3D-FBPP)形式化为电商物流中的现实世界打包任务。
- 开发一个神经策略,联合学习物品序列和朝向以最小化箱体表面积。
- 通过多任务选择学习(MTSL)框架缓解任务不平衡并利用任务相关性。
- 在大规模真实数据集和在线AB测试中评估,以展示实际影响。
提出的方法
- 使用带有两个输出流的编码器-解码器神经网络,用于序列(物品)和朝向,共享一个共同表示。
- 在序列任务中结合内部注意力机制,以处理重复物品约束。
- 引入灵感自爬山式的朝向学习,使用来自最佳解的真实朝向。
- 使用混合损失 L_all = alpha*L_seq + (1-alpha)*L_ori 以及多任务选择学习调度,在 L_seq、L_ori 和 L_all 之间采样。
- 使用指针网络风格的机制解码序列,并用PPO进行策略优化。
- 使用束搜索(大小为5)和采样(128个解)来选择最佳装箱。
实验结果
研究问题
- RQ1多任务学习框架能否在3D-FBPP中有效同时学习装箱序列和朝向以最小化箱体表面积?
- RQ2选择学习是否有助于平衡不平衡且相关的任务(序列 vs 朝向),并在单任务或非选择的多任务基线中提升解的质量?
- RQ3提出方法在大规模真实订单数据和在线生产环境中的实际性能提升是多少?
主要发现
| 模型 | BIN8 | BIN10 | BIN12 |
|---|---|---|---|
| LWSC | 43.97 | 47.33 | 49.34 |
| BRKGA (GA+DFTRC) | 43.44 | 47.84 | 50.01 |
| GA+LWSC | 42.44 | 44.49 | 48.77 |
| GA+DBLF | 42.22 | 46.87 | 50.70 |
| RL-vanilla | 41.82 | 45.02 | 46.70 |
| RL-intra | 41.69 | 44.84 | 46.67 |
| MTSL | 41.26 | 42.76 | 45.27 |
| RL-intra-sample | 41.12 | 44.03 | 45.58 |
| MT-sample | 42.31 | 45.01 | 45.62 |
| MTSL-sample | 41.24 | 42.31 | 45.12 |
- MTSL在离线实验中相对于LWSC启发式在BIN10和BIN12上实现最多9.66%的表面积减少,在BIN8–BIN12的多种比较中实现6.16%至8.25%的增益。
- MTSL在单任务的指针网络和没有选择学习的多任务模型上均显著优于。
- 在线AB测试显示装箱成本平均下降5.47%。
- 序列任务的内部注意力相较于普通强化学习模型提升了装箱表面积。
- 采样多解(128个)进一步提升了结果,MTSL-sample通常优于其他方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。