[论文解读] Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation
Chameleon 引入了一种基于强化学习的自适应探索与知识引导采样算法,以加速深度神经网络编译。在真实硬件上,其将优化时间减少了 4.45 倍,并将推理性能提升了 5.6%,相比 AutoTVM 实现了更快、可扩展的代码生成,且无需人工优化。
Achieving faster execution with shorter compilation time can foster further diversity and innovation in neural networks. However, the current paradigm of executing neural networks either relies on hand-optimized libraries, traditional compilation heuristics, or very recently genetic algorithms and other stochastic methods. These methods suffer from frequent costly hardware measurements rendering them not only too time consuming but also suboptimal. As such, we devise a solution that can learn to quickly adapt to a previously unseen design space for code optimization, both accelerating the search and improving the output performance. This solution dubbed Chameleon leverages reinforcement learning whose solution takes fewer steps to converge, and develops an adaptive sampling algorithm that not only focuses on the costly samples (real hardware measurements) on representative points but also uses a domain-knowledge inspired logic to improve the samples itself. Experimentation with real hardware shows that Chameleon provides 4.45x speed up in optimization time over AutoTVM, while also improving inference time of the modern deep networks by 5.6%.
研究动机与目标
- 为减少依赖昂贵硬件测量的自动化 DNN 优化框架所面临的长编译时间。
- 通过适应未见过的设计空间,在不事先了解目标网络或硬件的情况下提高优化效率。
- 通过智能采样配置来最小化搜索过程中的冗余和浪费性硬件测量。
- 通过结合领域知识与聚类技术合成高潜力配置来提升搜索质量。
- 实现针对多样化 DNN 的更快、可扩展且自动化的代码生成,且不依赖人工优化的库。
提出的方法
- Chameleon 使用强化学习智能体动态调整调度搜索空间中的探索策略,通过反馈学习实现更快收敛。
- 采用基于聚类的自适应采样策略,识别设计空间中的代表性点,从而减少所需的硬件测量次数。
- 一个受领域知识启发的样本生成模块,可生成高适应度的候选配置,以提升搜索质量并避免冗余评估。
- 该框架可与现有编译器(如 TVM 和 AutoTVM)集成,用自适应的、学习驱动的替代方案取代其原有的搜索与测量阶段。
- 通过结合提升树模型预测的适应度与对关键配置的选择性真实硬件测量,更新成本模型。
- 系统在新型网络架构上端到端进行训练,从而能够快速适应此前未见过的 DNN 架构。
实验结果
研究问题
- RQ1强化学习能否有效应用于 DNN 编译优化,以适应新的、未见过的设计空间?
- RQ2如何使采样策略具备自适应性,以减少优化过程中昂贵硬件测量的次数?
- RQ3能否将领域知识整合到采样过程中,以生成更高品质的候选配置?
- RQ4自适应探索与采样在多大程度上能减少编译时间,同时提升最终的推理性能?
- RQ5基于强化学习的探索与知识引导采样相结合,为何能优于传统的随机或贪心搜索方法?
主要发现
- Chameleon 在现代 DNN(如 ResNet-18、VGG-16 和 AlexNet)上相比 AutoTVM 实现了 4.45 倍的优化时间加速。
- 该框架在所评估网络上平均提升了 5.6% 的推理性能,证明了其生成代码质量更优。
- 自适应采样策略通过聚焦于代表性与高潜力配置,减少了所需硬件测量的次数。
- 强化学习的使用使系统即使在未见过的 DNN 架构上也能更快收敛到高质量调度方案。
- 受领域知识启发的样本生成模块显著提高了在搜索早期发现高性能配置的可能性。
- Chameleon 已公开发布,且与 TVM 和 AutoTVM 等现有框架兼容,支持广泛采用与集成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。