QUICK REVIEW

[논문 리뷰] Driving on Registers

Ellington Kirby, Boulch, Alexandre|Zenodo (CERN European Organization for Nuclear Research)|2026. 01. 08.

Advanced Vision and Imaging인용 수 0

한 줄 요약

DrivoR는 카메라별 레지스터 토큰을 사용하여 다중 카메라 특징을 압축하고, 카메라별 트젝토리 생성 및 점수 디코더를 분리한 ViT 기반의 간단한 엔드투엔드 자율주행 모델로 NAVSIM-v1/v2에서 최첨단 결과를 달성하고 HUGSIM 성능에서도 경쟁력 있으며 효율적이다.

ABSTRACT

We present DrivoR, a simple and efficient transformer-based architecture for end-to-end autonomous driving. Our approach builds on pretrained Vision Transformers (ViTs) and introduces camera-aware register tokens that compress multi-camera features into a compact scene representation, significantly reducing downstream computation without sacrificing accuracy. These tokens drive two lightweight transformer decoders that generate and then score candidate trajectories. The scoring decoder learns to mimic an oracle and predicts interpretable sub-scores representing aspects such as safety, comfort, and efficiency, enabling behavior-conditioned driving at inference. Despite its minimal design, DrivoR outperforms or matches strong contemporary baselines across NAVSIM-v1, NAVSIM-v2, and the photorealistic closed-loop HUGSIM benchmark. Our results show that a pure-transformer architecture, combined with targeted token compression, is sufficient for accurate, efficient, and adaptive end-to-end driving. Code and checkpoints will be made available via the project page.

연구 동기 및 목표

무거운 중간 표현이나 큰 궤적 사전 없이 엔드투엔드 자율주행을 추진한다.
다운스트림 계산을 줄이기 위한 컴팩트하고 카메라 인식 토큰화 체계 제안.
행동 조건부 주행을 가능하게 하기 위해 궤적 생성과 점수 매김을 분리한다.
레지스터 기반 압축을 갖는 순수 트랜스포머 아키텍처가 최첨단 성능을 달성할 수 있음을 보인다.
정확도를 유지하면서 대형 ViT 기준선 대비 효율 향상을 보여준다.

제안 방법

각 카메라에 LoRA로 미세조정된 카메라별 레지스터 토큰을 추가해 카메라 인식 씬 토큰을 생성하는 ViT 인코더를 사용한다.
학습 가능한 궤적 쿼리를 사용한 교차 어텐션으로 씬 토큰을 주시하는 트랜스포머 디코더로 후보 궤적을 생성한다.
각 후보 궤적을 씬 토큰에 어텐션하는 별도의 점수 디코더로 점수화하되, 점수기에서 궤적 디코더로의 그래디언트 흐름이 역전하지 않도록 한다.
궤적에 대한 승자독식(regression) 손실과 PDMS 기반 점수 구성요소의 보조 점수에 대한 BCE 기반 손실로 학습하되, 하위 점수 재가중으로 행동 조건부 추론을 가능하게 한다.
궤적 가지와 점수화 가지를 분리한 해리된 구조를 채택하고 궤적 임베딩이 점수화 그래디언트로 되돌아가지 않게 하여 안정성을 높인다.
카메라 레지스터로 토큰 수를 크게 줄이고 ViT-L 기준선 대비 >3배 처리량 향상을 보이며 NAVSIM-v1/v2에서 SOTA를 달성하고 강력한 HUGSIM 결과를 보여주는 방식으로 효율성을 입증한다.

Figure 1 : DrivoR architecture. The proposed architecture is composed of three transformer blocks: one encoder (perception) and two decoders (trajectory and scoring). The perception encoder compresses perceptual information in camera-aware registers for lightweight subsequent processing in the traje

실험 결과

연구 질문

RQ1카메라별 레지스터 토큰이 멀티-카메라 인지를 압축하면서도 계획 정확도를 희생하지 않는가?
RQ2순수 트랜스포머 아키텍처에서 궤적 생성과 점수 매김을 분리하는 것이 계획 품질을 향상시키고 행동 조건부 주행을 가능하게 하는가?
RQ3레지스터 기반 토큰 압축이 풀링이나 전체 토큰 표현과 비교하여 계산 효율성(토큰, FLOPs, 메모리)에 어떤 영향을 미치는가?
RQ4모델이 NAVSIM-v1, NAVSIM-v2에서 최첨단 결과를 달성하고 HUGSIM에서 포토리얼리스틱 폐루프 성능에서도 경쟁력을 유지할 수 있는가?

주요 결과

방법	NC	DAC	TTC	Comf.	EPDMS	PDMS
DrivoR (train)	98.9	98.3	96.2	100	89.1	93.1
DrivoR (trainval)	99.0	98.9	96.7	100	90.0	93.7
DrivoR (+65k SimScale data)	99.1	99.0	96.9	100	91.6	94.0

DrivoR은 NAVSIM-v1 및 NAVSIM-v2에서 강력한 벤치마크를 상회하거나 일치하며, 최첨단 PDMS 및 EPDMS 점수를 달성한다.
레지스터 기반 카메라 인식 토큰은 계획 컨텍스트를 유지하면서 상당한 토큰 압축을 달성하여 다운스트림 디코딩의 효율성을 가능하게 한다.
별개의 보조 점수들을 갖는 해리된 점수 모듈은 성능을 향상시키고 추론 시 재가중을 통해 행동 조건부 주행을 가능하게 한다.
DrivoR은 ViT-L 기준선 대비 3배 이상 처리량을 달성하고 GFLOPs 및 피크 메모리를 대략 3배 감소시킨다.
HUGSIM 포토리얼리스틱 폐루프 평가에서 DrivoR은 보고된 RC 중 최고를 달성하고 HD-Score도 경쟁력 있으며 NAVSIM-v1 학습에서 제로샷임에도 달성한다.
BEV 표현이나 대형 궤적 사전 없이 단순한 트랜스포머 전용 설계로 엔드투엔드 주행에서 최첨단 성능에 도달할 수 있다.

Figure 2: Encoder and decoder architectures follow standard transformer architectures, with introduction of sensor registers in the encoder, and using these registers as scene tokens in downstream decoders.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.