Skip to main content
QUICK REVIEW

[论文解读] REGAL: Transfer Learning For Fast Optimization of Computation Graphs.

Aditya Paliwal, Felix Gimeno|arXiv (Cornell University)|May 7, 2019
Parallel Computing and Optimization Techniques参考文献 20被引用 12
一句话总结

REGAL 提出了一种基于深度强化学习的迁移学习方法,用于优化神经网络计算图,以减少执行时间和峰值内存占用。它在离线阶段训练一个优化器,使其能泛化到未见过的计算图上,实现在数秒内获得高质量优化结果——远快于先前方法所需的数小时——同时优于经典方法和基于学习的基线方法。

ABSTRACT

We present a deep reinforcement learning approach to minimizing the execution cost of neural network computation graphs in an optimizing compiler. Unlike earlier learning-based works that require training the optimizer on the same graph to be optimized, we propose a learning approach that trains an optimizer offline and then generalizes to previously unseen graphs without further training. This allows our approach to produce high-quality execution decisions on real-world TensorFlow graphs in seconds instead of hours. We consider two optimization tasks for computation graphs: minimizing running time and peak memory usage. In comparison to an extensive set of baselines, our approach achieves significant improvements over classical and other learning-based methods on these two tasks.

研究动机与目标

  • 解决现有优化方法在面对新图时需重新训练的问题。
  • 实现在未见过模型上无需微调即可快速获得高质量的计算图优化。
  • 最小化神经网络计算图中的执行时间和峰值内存使用量。
  • 使单一训练好的优化器能泛化到多种真实世界的 TensorFlow 计算图上。

提出的方法

  • 在多样化计算图上离线训练一个深度强化学习智能体,以学习优化策略。
  • 智能体学习做出诸如算子融合、布局转换和内存分配等决策。
  • 应用迁移学习,使同一策略网络能泛化到此前未见过的图上,而无需进一步训练。
  • 该方法使用结合执行时间和内存使用量的奖励函数,以指导优化决策。
  • 采用离策略强化学习与经验回放训练策略网络,以提高样本效率。
  • 将该框架集成到优化编译器流水线中,以便在推理时应用决策。

实验结果

研究问题

  • RQ1是否可以仅训练一次强化学习策略,并将其泛化应用于优化此前未见过的计算图?
  • RQ2与经典优化技术相比,该方法在执行时间和内存使用量方面表现如何?
  • RQ3迁移学习在多大程度上可减少优化新模型时的重训练需求?
  • RQ4该方法是否能在显著缩短优化时间的同时,保持或提升优化质量?

主要发现

  • REGAL 在执行时间和峰值内存使用量方面,优化质量与经典方法和基于学习的基线方法相当或更优。
  • 该方法将真实世界 TensorFlow 图的优化时间从数小时缩短至数秒。
  • 训练好的策略无需微调即可有效泛化到未见过的图上,展现出强大的迁移能力。
  • 该方法在多种模型上均优于强基线方法,能更有效地最小化执行时间和内存占用。
  • 基于奖励的强化学习框架成功平衡了速度与内存效率之间的权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。