QUICK REVIEW

[논문 리뷰] Depth Completion as Parameter-Efficient Test-Time Adaptation

Bingxin Ke, Qunjie Zhou|arXiv (Cornell University)|2026. 02. 16.

Advanced Vision and Imaging인용 수 0

한 줄 요약

CAPA 는 경량 PEFT 구성요소(LorA 또는 VPT) 만 업데이트하면서 백본을 동결하여 깊이 보정에 대해 사전 학습된 3D 기초 모델을 지지하도록 하며, 실내외 데이터셋 전반에서 최첨단 결과를 달성한다. 또한 시퀀스 수준의 파라미터 공유로 영상에도 확장되어 시간적 일관성을 확보한다.

ABSTRACT

We introduce CAPA, a parameter-efficient test-time optimization framework that adapts pre-trained 3D foundation models (FMs) for depth completion, using sparse geometric cues. Unlike prior methods that train task-specific encoders for auxiliary inputs, which often overfit and generalize poorly, CAPA freezes the FM backbone. Instead, it updates only a minimal set of parameters using Parameter-Efficient Fine-Tuning (e.g. LoRA or VPT), guided by gradients calculated directly from the sparse observations available at inference time. This approach effectively grounds the foundation model's geometric prior in the scene-specific measurements, correcting distortions and misplaced structures. For videos, CAPA introduces sequence-level parameter sharing, jointly adapting all frames to exploit temporal correlations, improve robustness, and enforce multi-frame consistency. CAPA is model-agnostic, compatible with any ViT-based FM, and achieves state-of-the-art results across diverse condition patterns on both indoor and outdoor datasets. Project page: research.nvidia.com/labs/dvl/projects/capa.

연구 동기 및 목표

얼려 둔 3D 기초 모델의 기하학적 선행 지식을 희박한 테스트-타임 깊이 신호로 지지한다.
기본 모델을 보존하면서 소수의 파라미터를 업데이트하는 파라미터 효율적 적응 프레임워크를 개발한다.
CAPA 를 비디오로 확장하여 프레임 간 파라미터를 공유해 시간적 일관성을 향상시킨다.
CAPA 를 실내 및 실외 데이터셋과 여러 기본 모델 및 PEFT 전략으로 평가한다.

제안 방법

ViT 기반 3D 기초 모델 백본을 고정하고 소형 PEFT 구성요소만 업데이트한다.
attention 계층에서 LoRA (W_q, W_k, W_v에 대한 저랭크 업데이트) 또는 Visual Prompt Tuning (학습 가능한 프롬프트 토큰을 선행시키는 방식)을 적용한다.
희박한 깊이로 샘플별 아핀 정합(스케일 및 시프트)을 계산해 스케일 모호성을 해결하고, 그 후 유효 픽셀에 대한 L1 손실을 역전파한다.
비디오의 경우 프레임 간 동일한 학습 가능 매개변수를 공유하고 미니배치로 최적화하여 시간적 일관성을 강제한다.
두 CAPA 변형에 대해 학습 가능한 파라미터 수는 0.39M 이고 샘플당 100개의 최적화 스텝이다.
CAPA는 VGGT 와 호환 가능하며 UniDepthV2 및 MoGe-2 기본 모델로 확장된 것으로 시연된다.

실험 결과

연구 질문

RQ1고정된 3D 기초 모델의 파라미터 효율적 미세조정이 테스트 시 희박한 신호를 사용한 깊이 보정에 개선을 가져올 수 있는가?
RQ2비디오 프레임 간의 시퀀스-레벨(공유) 적응이 시간적 일관성과 희박한 관측하에서의 강건성을 향상시키는가?
RQ3CAPA에서 LoRA 와 VPT 의 정확도와 효율성 측면의 비교는 어떠한가?
RQ4CAPA 가 실내외 데이터셋 및 서로 다른 기본 모델에서 얼마나 일반화되는가?

주요 결과

방법	ScanNet AbsRel (%)	7-Scenes AbsRel (%)	iBims AbsRel (%)	Metropolis AbsRel (%)	평균 순위
CAPA LoRA	1.0	0.9	1.1	2.8	1.0
CAPA VPT	1.1	1.0	1.0	2.6	1.1

LoRA 또는 VPT 를 사용한 CAPA 는 네 가지 데이터셋(ScanNet, 7-Scenes, iBims, Metropolis)에서 일관되게 베이스라인을 능가한다.
CAPA 는 많은 설정에서 경쟁 방법들에 비해 기본 모델 AbsRel 오차를 대략 2배 정도 감소시킨다.
시퀀스-레벨 적응이 프레임별 튜닝에 비해 시간적 일관성(더 낮은 OPW)을 향상시킨다.
CAPA 는 전체 미세조정 대비 0.39M 의 파라미터만 업데이트하면서 최첨단 결과를 달성하였고 효율성을 강조한다.
CAPA 와 함께 통합될 때 VGGT 깊이 오차가 2–3× 개선된다.
시간적 및 조건부 강건성이 향상되어 CAPA 가 조건부 지역과 비조건부 지역 간 오차 차이가 작아진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.