QUICK REVIEW

[論文レビュー] Driving on Registers

Ellington Kirby, Boulch, Alexandre|Zenodo (CERN European Organization for Nuclear Research)|Jan 8, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

DrivoR は各カメラのレジスタトークンを用いてマルチカメラ特徴を圧縮するシンプルな ViT ベースのエンドツーエンド運転モデルで、軌道生成とスコアリングを分離、NAVSIM-v1/v2 で最先端、HUGSIM でも競争力を示しつつ効率的。

ABSTRACT

We present DrivoR, a simple and efficient transformer-based architecture for end-to-end autonomous driving. Our approach builds on pretrained Vision Transformers (ViTs) and introduces camera-aware register tokens that compress multi-camera features into a compact scene representation, significantly reducing downstream computation without sacrificing accuracy. These tokens drive two lightweight transformer decoders that generate and then score candidate trajectories. The scoring decoder learns to mimic an oracle and predicts interpretable sub-scores representing aspects such as safety, comfort, and efficiency, enabling behavior-conditioned driving at inference. Despite its minimal design, DrivoR outperforms or matches strong contemporary baselines across NAVSIM-v1, NAVSIM-v2, and the photorealistic closed-loop HUGSIM benchmark. Our results show that a pure-transformer architecture, combined with targeted token compression, is sufficient for accurate, efficient, and adaptive end-to-end driving. Code and checkpoints will be made available via the project page.

研究の動機と目的

重い中間表現や大規模な軌道辞書を用いずにエンドツーエンド自動運転を促進する。
下流計算を削減するためのコンパクトでカメラ意識的なトークン化スキームを提案する。
挙動条件付き運転を可能にするため軌道生成とスコアリングを分離する。
レジスタベースの圧縮を用いた純トランスフォーマーアーキテクチャで最先端の結果を達成できることを示す。
大規模 ViT ベースラインに比べて効率性を向上させつつ精度を維持する。

提案手法

各カメラごとに追加されたカメラ認識レジスタトークンを付与して LoRA でファインチューニングした ViT エンコーダを用い、カメラ認識シーントークンを作成する。
トランスフォーマデコーダがシーントークンに対してクロスアテンションを用いて学習可能な軌道クエリを用い、候補軌道を生成する。
別のスコアリングデコーダが各候補軌道をシーントークンに対してアテンションしつつ、スカラーの流れを軌道デコーダへ戻さないようにして各候補軌道をスコアリングする。
軌道の回帰損失は winner-takes-all、PDMS ベースのスコアリング要素のサブスコアには BCE ベースの損失を用い、サブスコアの再加重により挙動条件付き推論を可能にする。
軌道とスコアリングの枝を別々にし、軌道埋め込みをスコアリング勾配へ戻さない分離型アーキテクチャを採用して安定性を向上させる。
カメラレジスタのトークン数を大幅に削減し、ViT-L ベースラインより >3 倍のスループットを示しつつ NAVSIM-v1/v2 で最先端、HUGSIM でも強力な結果を示すことを実証する。

Figure 1 : DrivoR architecture. The proposed architecture is composed of three transformer blocks: one encoder (perception) and two decoders (trajectory and scoring). The perception encoder compresses perceptual information in camera-aware registers for lightweight subsequent processing in the traje

実験結果

リサーチクエスチョン

RQ1カメラ毎のレジスタトークンはマルチカメラ認識を圧縮しても計画の精度を損なわないか。
RQ2純粋なトランスフォーマーアーキテクチャで軌道生成とスコアリングを分離することは、計画品質を向上させ、挙動条件付き運転を可能にするか。
RQ3レジスタベースのトークン圧縮は、プーリングや完全なトークン表現と比較して計算効率（トークン、FLOPs、メモリ）にどのような影響を与えるか。
RQ4NAVSIM-v1、NAVSIM-v2 で最先端の結果を達成し、HUGSIM でもフォトリアリスティックな閉ループ性能を競合レベルで維持できるか。

主な発見

Method	NC	DAC	TTC	Comf.	EPDMS	PDMS
DrivoR (train)	98.9	98.3	96.2	100	89.1	93.1
DrivoR (trainval)	99.0	98.9	96.7	100	90.0	93.7
DrivoR (+65k SimScale data)	99.1	99.0	96.9	100	91.6	94.0

DrivoR は NAVSIM-v1 および NAVSIM-v2 で強力なベースラインを上回るか、または同等で、PDMS および EPDMS スコアが最先端。
レジスタベースのカメラ認識トークンは計画コンテキストを保持しつつ顕著なトークン圧縮を実現し、下流のデコードを効率化。
分離型のスコアリングモジュールは別個のサブスコアを用いて性能を向上させ、推論時の再重み付けを通じて挙動条件付き運転を可能にする。
DrivoR は ViT-L ベースラインより 3 倍以上のスループットを達成し、GFLOPs とピークメモリを約 3 倍削減。
HUGSIM のフォトリアリスティック閉ループ評価で、DrivoR はこれまでに報告された最高の RC と競争力のある HD-Score を達成し、NAVSIM-v1 の訓練からゼロショットでも高性能を示す。
BEV 表現や大規模な軌道辞書を用いない単純なトランスフォーマーのみの設計でもエンドツーエンド運転で最先端の性能に到達できる。

Figure 2: Encoder and decoder architectures follow standard transformer architectures, with introduction of sensor registers in the encoder, and using these registers as scene tokens in downstream decoders.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。