QUICK REVIEW

[論文レビュー] Transformer-based models and hardware acceleration analysis in autonomous driving: A survey

Zhong Juan, Zheng Liu|arXiv (Cornell University)|Apr 21, 2023

Advanced Neural Network Applications被引用数 9

ひとこと要約

自動運転の Transformer ベースモデルに関する包括的な調査で、モデルアーキテクチャ、タスク（3D/2D知覚、予測、エンドツーエンド計画）、および携帯デバイス上でのオペレーターレベルのハードウェア加速に焦点を当てる。

ABSTRACT

Transformer architectures have exhibited promising performance in various autonomous driving applications in recent years. On the other hand, its dedicated hardware acceleration on portable computational platforms has become the next critical step for practical deployment in real autonomous vehicles. This survey paper provides a comprehensive overview, benchmark, and analysis of Transformer-based models specifically tailored for autonomous driving tasks such as lane detection, segmentation, tracking, planning, and decision-making. We review different architectures for organizing Transformer inputs and outputs, such as encoder-decoder and encoder-only structures, and explore their respective advantages and disadvantages. Furthermore, we discuss Transformer-related operators and their hardware acceleration schemes in depth, taking into account key factors such as quantization and runtime. We specifically illustrate the operator level comparison between layers from convolutional neural network, Swin-Transformer, and Transformer with 4D encoder. The paper also highlights the challenges, trends, and current insights in Transformer-based models, addressing their hardware deployment and acceleration issues within the context of long-term autonomous driving applications.

研究の動機と目的

Transformer アーキテクチャが自動運転タスク（知覚、マッピング、予測、計画）全体にどのように適用されているかを評価する。
エンコーダ-デコーダとエンコーダーのみの設計を分析し、リアルタイム展開におけるトレードオフを検討する。
量子化、固定小数点演算、アーキテクチャ特有の最適化を含むオペレーターレベルのハードウェア加速の側面を調査する。
標準データセットで Transformer モデルをベンチマークし、精度・速度・リソース消費と展開の実現可能性を関連づける。

提案手法

運転タスク別に Transformer ベースモデルをレビューし分類する（3D / 一般知覚、2D/平面、予測とエンドツーエンド）。
エンコーダ-デコーダとエンコーダーのみの構造を比較し、入力/出力の表現（BEV、2D/3D クエリなど）を比較する。
ソフトマックス、レイヤー正規化、マトリックス乗算などのオペレーターレベルの要素と、それらのハードウェア加速戦略を要約する。
Nvidia GTX-3090 ハードウェア上で、データセット全体にわたるモデルサイズ、FLOPs、FPS、精度のベンチマーク表を提供する。
長期的な自動運転アプリケーションに対するハードウェア展開の課題と動向を議論する。

実験結果

リサーチクエスチョン

RQ13D知覚、車線/HDマップタスク、エンドツーエンドの自動運転パイプラインに最も効果的な Transformer ベースのアーキテクチャはどれか。
RQ2自動車シナリオにおける精度、レイテンシ、リソース使用量の観点で、エンコーダ-デコーダとエンコーダーのみの構成はどのように比較されるか。
RQ3主要なオペレーターレベルのボトルネック（例：ソフトマックス、LN、FFN、行列乗算）と、それらをハードウェア加速でどう解決できるか？
RQ4携帯可能なハードウェア上で、NuScenes、OpenLane、TuSimple、CARLAなどの代表的なデータセットに対するベンチマーク性能の現状はどうか？
RQ5長期的な自動運転における Transformer ベースモデルの展開を形作る傾向と課題は何か？

主な発見

Transformer ベースのモデルは、物体検出、車線検出、HDマップ生成のいくつかのケースで、CNN のベースラインと比較して競争力のあるまたは優れた性能を達成する。
BEVベースのクエリとマルチビューフュージョンは3D知覚性能を向上させ、NuScenesでBEVFormerやPETRタイプのアプローチが強力な結果を示している。
エンドツーエンドの Transformer 構成（例：TransFuser、InterFuser、UniAD）は、センサリング・計画制御の統合に有望だが、現実性とデータ要件は依然として課題である。
GTX-3090 でのハードウェアベンチマークは、モデルサイズ、FLOPs、フレームレートのトレードオフを明らかにし、効率的なエンコーダ/デコーダ設計と加速された演算子の必要性を際立たせている。
予想される傾向は、階層型/シフトウィンドウ型 Transformer（例：Swin-Transformer）と多模融合の活用が増え、エッジデバイスでの効率と精度のバランスを取る方向に向かう。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。