Skip to main content
QUICK REVIEW

[论文解读] Cartesian Genetic Programming Approach for Designing Convolutional Neural Networks

Maciej Krzywda, Szymon Łukasik|arXiv (Cornell University)|Sep 15, 2024
Evolutionary Algorithms and Applications被引用 2
一句话总结

本文提出一种基于UNet策略网络和近端策略优化(PPO)的1D强化学习(RL)方法,用于求解具有高粒度状态空间和动作空间的2D矩形装箱问题。通过利用高度图和可行性掩码将状态空间和动作空间降维至1D,该模型在性能上可与MaxRects启发式算法相媲美,甚至在具有中间奖励的随机物品集合上表现更优。

ABSTRACT

The present study covers an approach to neural architecture search (NAS) using Cartesian genetic programming (CGP) for the design and optimization of Convolutional Neural Networks (CNNs). In designing artificial neural networks, one crucial aspect of the innovative approach is suggesting a novel neural architecture. Currently used architectures have mostly been developed manually by human experts, which is a time-consuming and error-prone process. In this work, we use pure Genetic Programming Approach to design CNNs, which employs only one genetic operation, i.e., mutation. In the course of preliminary experiments, our methodology yields promising results.

研究动机与目标

  • 利用强化学习解决2D矩形装箱问题中高维状态空间与动作空间的挑战。
  • 开发一种简化的1D表示方法,用于箱子状态与动作空间,以提升训练稳定性和收敛性。
  • 实现对非矩形装箱及超越传统启发式算法的复杂约束的泛化能力。
  • 评估终端奖励与中间奖励在基于RL的装箱中的有效性。
  • 证明RL可在特定场景下实现与MaxRects启发式算法相当或更优的性能。

提出的方法

  • 使用五个通道表示箱子状态:归一化的高度图(第1通道)、0°和90°旋转的两个二值可行性掩码(第2–3通道),以及当前物品的2D形状嵌入(第4–5通道)。
  • 通过仅在X轴方向建模放置概率,将动作空间缩减为2·w,分别对未旋转和旋转物品使用独立向量。
  • 采用1D UNet架构作为策略网络,以建模空间相关性,并实现类似分割的决策机制,以实现最优放置。
  • 应用近端策略优化(PPO)训练RL智能体,采用两种奖励函数:V1(仅终端奖励)和V2(中间奖励+终端奖励)以引导学习。
  • 设计奖励函数V2,对装箱步骤中损失的面积进行惩罚,以鼓励早期空间效率。
  • 将箱子离散化为w=125列和h=150行,但将智能体决策限制在1D X轴放置,以缓解维度灾难。

实验结果

研究问题

  • RQ11D表示的2D箱子状态与动作空间是否能有效降低维度,同时在基于RL的方法中保持装箱性能?
  • RQ2中间奖励设计(V2)与仅终端奖励(V1)相比,对引导RL智能体实现高效装箱的效果如何?
  • RQ3在高粒度状态表示下训练的RL智能体,在多大程度上可与MaxRects启发式算法的性能持平或超越?
  • RQ4鉴于其基于视觉、网格状的结构,该方法在非矩形形状或复杂约束下是否具备泛化能力?
  • RQ5奖励函数设计对不同物品集合下装箱结果的稳定性与方差有何影响?

主要发现

  • 仅使用终端奖励(V1)的模型在固定大小物品集合上的装箱性能略逊于MaxRects,但表现出在箱子边界附近进行战略规划的能力。
  • 采用中间奖励的版本(V2)在随机物品集合上优于MaxRects,表明早期反馈可提升泛化能力与效率。
  • V1与V2均表现出比MaxRects更低的方差,表明结果更稳定,不确定性更小。
  • 采用V2的智能体学会有意识地保留中央空白区域,表明其具备避免未来空间碎片化的战略行为。
  • 1D UNet-PPO方法成功缓解了维度灾难,实现了稳定训练与高粒度装箱决策。
  • 该方法的架构支持向非矩形装箱的潜在扩展,并可与启发式算法集成,为装箱问题提供可扩展的RL框架。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。