QUICK REVIEW

[论文解读] VTA: An Open Hardware-Software Stack for Deep Learning.

Thierry Moreau, Tianqi Chen|arXiv (Cornell University)|Jul 11, 2018

Parallel Computing and Optimization Techniques参考文献 15被引用 50

一句话总结

VTA 是一种用于边缘 FPGA 上深度学习的开放、可扩展的软硬件栈，采用可配置的两级指令集架构（ISA）——任务级和微代码级——以实现在边缘 FPGA 上灵活且高性能的推理。集成于 Apache TVM 之后，它支持针对定制化软硬件栈的即时编译（JIT）和设计空间探索，已在图像分类和风格迁移工作负载上实现优化性能。

ABSTRACT

Specialized Deep Learning (DL) acceleration stacks, designed for a specific set of frameworks, model architectures, operators, and data types, offer the allure of high performance while sacrificing flexibility. Changes in algorithms, models, operators, or numerical systems threaten the viability of specialized hardware accelerators. We propose VTA, a programmable deep learning architecture template designed to be extensible in the face of evolving workloads. VTA achieves this flexibility via a parametrizable architecture, two-level ISA, and a JIT compiler. The two-level ISA is based on (1) a task-ISA that explicitly orchestrates concurrent compute and memory tasks and (2) a microcode-ISA which implements a wide variety of operators with single-cycle tensor-tensor operations. Next, we propose a runtime system equipped with a JIT compiler for flexible code-generation and heterogeneous execution that enables effective use of the VTA architecture. VTA is integrated and open-sourced into Apache TVM, a state-of-the-art deep learning compilation stack that provides flexibility for diverse models and divergent hardware backends. We propose a flow that performs design space exploration to generate a customized hardware architecture and software operator library that can be leveraged by mainstream learning frameworks. We demonstrate our approach by deploying optimized deep learning models used for object classification and style transfer on edge-class FPGAs.

研究动机与目标

解决专用深度学习加速器因模型、框架或数据类型变化而迅速过时的僵化问题。
设计一种可通过参数化和可扩展性支持持续演进工作负载的可编程架构。
通过即时编译器和两级指令集架构（ISA），实现高效代码生成与异构执行。
将该软硬件栈集成至 Apache TVM，以实现与主流深度学习框架的互操作性。
支持自动化设计空间探索，以生成针对特定模型和硬件后端的优化软硬件栈。

提出的方法

设计两级 ISA：任务级 ISA 用于编排并发计算与内存操作，微代码级 ISA 用于单周期张量-张量操作。
实现可参数化的架构，支持针对不同工作负载、数据类型和硬件约束的定制化。
开发即时编译器，用于在 VTA 上动态生成代码并优化内核的运行时性能。
构建运行时系统，支持 VTA 与主机处理器之间的异构执行。
将 VTA 集成至 Apache TVM，以利用其编译栈支持多种模型和硬件后端。
采用设计空间探索流程，自动生成优化的硬件配置和软件算子库。

实验结果

研究问题

RQ1如何在保持高性能的同时，使深度学习加速器对模型、算子和数据类型的变更保持灵活性？
RQ2哪些架构与编译技术能够高效支持可重构硬件（如 FPGA）上的多样化工作负载？
RQ3具备任务级编排与微代码级操作的两级 ISA 是否能同时实现高性能与可扩展性？
RQ4将 VTA 集成至 Apache TVM 对实现跨框架与硬件的端到端优化效果如何？
RQ5设计空间探索在多大程度上能够自动化生成针对特定深度学习工作负载的优化 VTA 配置？

主要发现

VTA 在边缘级 FPGA 上实现了图像分类和风格迁移模型的高性能推理，展现出实际应用价值。
两级 ISA 通过微代码中的单周期张量-张量操作，高效表达了复杂深度学习算子。
即时编译器实现了灵活且高效的代码生成，可自适应不同模型与硬件配置。
与 Apache TVM 的集成实现了与主流深度学习框架及多样化硬件后端的无缝部署。
设计空间探索成功生成了定制化的 VTA 架构与软件库，显著减少了手动调优的工作量。
参数化架构支持在不重新设计底层硬件的前提下，适应不断演进的工作负载。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。