QUICK REVIEW

[论文解读] Transformer-based models and hardware acceleration analysis in autonomous driving: A survey

Zhong Juan, Zheng Liu|arXiv (Cornell University)|Apr 21, 2023

Advanced Neural Network Applications被引用 9

一句话总结

基于 Transformer 的模型在自动驾驶中的综合综述，聚焦模型架构、任务（3D/2D 感知、预测、端到端规划）以及在便携设备上的算力加速。

ABSTRACT

Transformer architectures have exhibited promising performance in various autonomous driving applications in recent years. On the other hand, its dedicated hardware acceleration on portable computational platforms has become the next critical step for practical deployment in real autonomous vehicles. This survey paper provides a comprehensive overview, benchmark, and analysis of Transformer-based models specifically tailored for autonomous driving tasks such as lane detection, segmentation, tracking, planning, and decision-making. We review different architectures for organizing Transformer inputs and outputs, such as encoder-decoder and encoder-only structures, and explore their respective advantages and disadvantages. Furthermore, we discuss Transformer-related operators and their hardware acceleration schemes in depth, taking into account key factors such as quantization and runtime. We specifically illustrate the operator level comparison between layers from convolutional neural network, Swin-Transformer, and Transformer with 4D encoder. The paper also highlights the challenges, trends, and current insights in Transformer-based models, addressing their hardware deployment and acceleration issues within the context of long-term autonomous driving applications.

研究动机与目标

评估 Transformer 架构在自动驾驶任务（感知、制图、预测、规划）中的应用方式。
分析编码器-解码器和仅编码器设计及其对实时部署的权衡。
调查操作层级的硬件加速方面，包括量化、定点运算和特定架构优化。
在标准数据集上对 Transformer 模型进行基准测试，以将准确性、速度和资源使用与部署可行性相关联。

提出的方法

按驾驶任务对 Transformer 基础模型进行分类（3D/通用感知、2D/平面、预测与端到端）。
比较编码器-解码器与仅编码器结构及其输入/输出表述（BEV、2D/3D 查询等）。
总结操作层级组件（softmax、layer norm、矩阵乘法）及其硬件加速策略。
提供不同数据集下，在 Nvidia GTX-3090 硬件上，模型大小、FLOPs、FPS 与精度的基准表。
讨论长期自动驾驶应用的硬件部署挑战与趋势。

实验结果

研究问题

RQ1哪些 Transformer 基础架构最适合 3D 感知、车道/高精地图任务，以及端到端自动驾驶管线？
RQ2在准确性、延迟和资源使用方面，编码器-解码器和仅编码器在汽车场景中的表现如何比较？
RQ3关键的操作层级瓶颈（如 softmax、LN、FFN、matmul）是什么，硬件加速如何解决它们？
RQ4在便携式硬件上，当前在代表性数据集（NuScenes、OpenLane、TuSimple、CARLA）上的基准性能状态如何？
RQ5哪些趋势与挑战影响 Transformer 基于模型在长期自动驾驶中的部署？

主要发现

Transformer 基础模型在对象检测、车道检测和高清地图生成方面在多种情况下相较于 CNN 基线具有竞争力或优越性。
基于 BEV 的查询和多视角融合提升了 3D 感知性能，BEVFormer 和 PETR-type 方法在 NuScenes 上展现出强劲结果。
端到端 Transformer 配置（如 TransFuser、InterFuser、UniAD）在集成感知-规划控制方面显示出潜力，尽管现实性与数据需求仍是挑战。
在 GTX-3090 的硬件基准显示，模型大小、FLOPs 与帧率之间存在权衡，突显对高效的编码器/解码器设计和加速算子的需求。
未来趋势倾向于在边缘设备上增加层次化/移位窗口 Transformer（如 Swin-Transformer）与多模态融合，以在效率和准确性之间取得平衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。