[论文解读] Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs
本文提出 REGAL,一种增强强化学习的遗传算法,通过训练图神经网络(GNN)来指导有偏随机键遗传算法(BRKGA)在优化神经网络计算图以实现最小运行时间和峰值内存使用量。通过学习输入特定的提议分布用于 BRKGA,REGAL 在未见过的真实 TensorFlow 图上仅用数秒即可获得高质量解,且无需微调,优于经典方法和基于学习的基线方法。
We present a deep reinforcement learning approach to minimizing the execution cost of neural network computation graphs in an optimizing compiler. Unlike earlier learning-based works that require training the optimizer on the same graph to be optimized, we propose a learning approach that trains an optimizer offline and then generalizes to previously unseen graphs without further training. This allows our approach to produce high-quality execution decisions on real-world TensorFlow graphs in seconds instead of hours. We consider two optimization tasks for computation graphs: minimizing running time and peak memory usage. In comparison to an extensive set of baselines, our approach achieves significant improvements over classical and other learning-based methods on these two tasks.
研究动机与目标
- 开发一种快速、可泛化的神经网络计算图优化器,可在无需微调的情况下适用于多样化的真实世界模型。
- 在静态编译器中联合优化放置与调度决策,以最小化执行成本(运行时间或峰值内存)。
- 克服先前基于学习的优化器的局限性,后者需为每张图训练数小时,或缺乏对未见架构的泛化能力。
- 通过在大型图上数秒内获得高质量解,实现优化编译器在生产环境中的部署。
提出的方法
- 通过上下文 bandit 设置和 REINFORCE 算法训练图神经网络(GNN),以预测 BRKGA 突变生成步骤中每个节点的非均匀 beta 分布参数。
- BRKGA 算法使用这些学习到的、与输入相关的提议分布,而非默认的均匀分布,以引导搜索朝向更高品质的解。
- GNN 处理由计算图结构、节点特征(如操作类型、张量大小)和边依赖关系构成的信息,为每个节点生成与放置和调度相关的特定动作概率。
- 策略通过目标值(如运行时间或内存)作为稀疏奖励信号进行训练,无需显式监督。
- 使用粗粒度静态成本模型在 BRKGA 评估过程中估算候选解的执行成本,从而在训练期间实现快速反馈。
- 通过学习可迁移的决策模式,该方法在包括真实世界 TensorFlow 模型在内的多样化图拓扑上实现良好泛化。
实验结果
研究问题
- RQ1学习到的策略是否能在无需微调的情况下,引导遗传算法在未见的计算图上找到更优解?
- RQ2基于 GNN 的策略学习是否能提升静态编译器中联合放置与调度优化的解质量?
- RQ3该方法是否能在数秒内而非数小时内获得高质量结果,从而实现实时在生产编译器中的应用?
- RQ4该模型在多样化神经网络架构和工作负载上的泛化能力如何?
主要发现
- REGAL 在真实世界 TensorFlow 图上显著优于经典方法和基于学习的基线方法,在最小化运行时间和峰值内存使用方面均取得显著改进。
- 该方法在数秒内生成高质量解,而先前基于学习的方法(如 Mirhoseini et al. (2017, 2018))需数小时。
- GNN 策略能有效泛化至未见的图拓扑,包括通过数据增强生成的图,且在不同架构上的性能方差较低。
- 策略学习到了非平凡的、与数据相关的策略——例如,为高内存节点分配较低的调度优先级,并避免对重型节点施加设备偏置——超越简单启发式方法。
- 在 TF Runtime 测试集上,REGAL 在 95% 的情况下优于 BRKGA 基线,且奖励值大于 -1 表明解的质量更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。