QUICK REVIEW

[论文解读] GDP: Generalized Device Placement for Dataflow Graphs

Yanqi Zhou, Sudip Roy|arXiv (Cornell University)|Sep 28, 2019

Ferroelectric and Negative Capacitance Devices参考文献 21被引用 25

一句话总结

本文提出GDP，一种基于可扩展图神经网络与基于叠加的微调策略的广义设备放置方法，采用序列注意力机制。该方法在推理速度上比人类专家快16%，较先前最优方法提升9.2%，收敛速度提升15倍，并在包括8层GNMT等大型模型在内的未见图上展现出强大的泛化能力。

ABSTRACT

Runtime and scalability of large neural networks can be significantly affected by the placement of operations in their dataflow graphs on suitable devices. With increasingly complex neural network architectures and heterogeneous device characteristics, finding a reasonable placement is extremely challenging even for domain experts. Most existing automated device placement approaches are impractical due to the significant amount of compute required and their inability to generalize to new, previously held-out graphs. To address both limitations, we propose an efficient end-to-end method based on a scalable sequential attention mechanism over a graph neural network that is transferable to new graphs. On a diverse set of representative deep learning models, including Inception-v3, AmoebaNet, Transformer-XL, and WaveNet, our method on average achieves 16% improvement over human experts and 9.2% improvement over the prior art with 15 times faster convergence. To further reduce the computation cost, we pre-train the policy network on a set of dataflow graphs and use a superposition network to fine-tune it on each individual graph, achieving state-of-the-art performance on large hold-out graphs with over 50k nodes, such as an 8-layer GNMT.

研究动机与目标

解决在异构硬件上大规模复杂神经网络架构中高效且可扩展的设备放置挑战。
克服先前基于强化学习的方法在每张图上均需从头开始训练且缺乏泛化能力的局限性。
实现可迁移的、端到端的设备放置策略，无需从头训练即可泛化至此前未见过的数据流图。
在保持或提升不同工作负载下放置质量的同时，降低策略搜索的计算成本。
在大规模图（如50k+节点）上实现最先进性能，仅需极少微调且收敛迅速。

提出的方法

使用图嵌入网络将操作特征与依赖关系编码为可训练的图表示。
采用基于改进Transformer的可扩展序列到序列放置网络，结合软注意力机制，在节点级别生成设备分配。
引入一种叠加网络，将策略条件化于输入图嵌入，从而实现对尺寸差异极大的图进行有效批量训练。
使用监督式奖励信号端到端训练策略，避免复杂多级损失调节的需要。
实施预训练与微调策略：在多样化图上进行预训练，并在单个图上使用叠加技术进行微调，以加速收敛。
通过注意力机制学习灵活的、基于节点的放置决策，从而无需显式分层分组或共置启发式规则。

实验结果

研究问题

RQ1基于深度强化学习的设备放置策略是否能在无需重新训练的情况下，泛化至多样且此前未见过的数据流图？
RQ2图神经网络中可扩展的序列注意力机制相较于分层或LSTM-based控制器，在提升放置质量与收敛速度方面有何优势？
RQ3基于叠加的批量训练在处理尺寸差异极大的图时，对优化稳定性与性能的提升程度如何？
RQ4预训练的图嵌入与策略是否能在如8层GNMT等大型保留图上实现高质量放置，且仅需极少微调？
RQ5与人类专家及先前最先进方法（如HDP与Placeto）相比，所提方法在性能与效率方面表现如何？

主要发现

GDP在包括Inception-v3、AmoebaNet与WaveNet在内的多样化模型上，平均实现端到端步骤时间减少16%，优于人类专家。
与先前最优方法（HDP）相比，步骤时间提升9.2%，同时策略搜索时间相比先前基于强化学习的方法减少15倍。
在保留图上对预训练模型进行微调（GDP-generalization+finetune）在全部六个测试图上均优于人类专家与HDP，其中2层RNNLM与2层堆叠WaveNet的性能与GDP-one相当。
对预训练模型进行零样本推理（GDP-generalization-zeroshot）表现几乎与微调后推理相当，证明图嵌入与策略具有极强的迁移能力。
消融实验表明，注意力机制使运行时间减少18%，叠加机制平均提升性能6.5%，且叠加机制在处理混合尺寸图时对训练稳定性至关重要。
相较于从头训练（GDP-one），预训练后微调使搜索时间减少86%，并平均进一步提升运行时间5%，证实了预训练与微调流程的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。