QUICK REVIEW

[論文レビュー] Depth Completion as Parameter-Efficient Test-Time Adaptation

Bingxin Ke, Qunjie Zhou|arXiv (Cornell University)|Feb 16, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

CAPA は、パラメータ効率のテスト時適応を用いて、バックボーンを凍結したまま軽量な PEFT コンポーネント（LoRA または VPT）を更新することで、深度補完の3D基盤モデルを grounding し、屋内外データセットで最先端の結果を達成します。シーケンスレベルのパラメータ共有による動画への適用も拡張され、時間的一貫性を確保します。

ABSTRACT

We introduce CAPA, a parameter-efficient test-time optimization framework that adapts pre-trained 3D foundation models (FMs) for depth completion, using sparse geometric cues. Unlike prior methods that train task-specific encoders for auxiliary inputs, which often overfit and generalize poorly, CAPA freezes the FM backbone. Instead, it updates only a minimal set of parameters using Parameter-Efficient Fine-Tuning (e.g. LoRA or VPT), guided by gradients calculated directly from the sparse observations available at inference time. This approach effectively grounds the foundation model's geometric prior in the scene-specific measurements, correcting distortions and misplaced structures. For videos, CAPA introduces sequence-level parameter sharing, jointly adapting all frames to exploit temporal correlations, improve robustness, and enforce multi-frame consistency. CAPA is model-agnostic, compatible with any ViT-based FM, and achieves state-of-the-art results across diverse condition patterns on both indoor and outdoor datasets. Project page: research.nvidia.com/labs/dvl/projects/capa.

研究の動機と目的

凍結された3D基盤モデルの幾何学的 priors を疎なテスト時深度手掛かりで groundingする。
ベースモデルを保持しつつ少数のパラメータだけを更新するパラメータ効率的適応フレームワークを開発する。
CAPA を動画へ拡張しフレーム間でパラメータを共有して時間的一貫性を向上させる。
室内および屋外データセット、複数のベースモデルと PEFT 戦略を用いて CAPA を評価する。

提案手法

ViT ベースの3D基盤モデルのバックボーンを凍結し、コンパクトな PEFT コンポーネントだけを更新する。
attention 層で LoRA（W_q, W_k, W_v への低ランク更新）または Visual Prompt Tuning（学習可能なプロンプトトークンを先頭に追加）を適用する。
疎な深度とスケールの曖昧性を解消するために、データごとにアフィン整列（スケールとシフト）を計算し、有効ピクセル上の L1 損失を逆伝播する。
動画の場合、フレーム間で同じ学習可能パラメータを共有し、ミニバッチで最適化して時間的一貫性を強制する。
学習可能パラメータ数は両方の CAPA 変種で0.39M、サンプルあたり100の最適化ステップ。
CAPA はVGGTと互換であることを示し、UniDepthV2 および MoGe-2 ベースモデルへ拡張する。

実験結果

リサーチクエスチョン

RQ1凍結された3D基盤モデルのパラメータ効率的微調整は、テスト時の疎な手掛かりを用いた深度補完を改善できるか。
RQ2動画フレーム全体でのシーケンスレベル（共有）適応は、時間的一貫性と稀な観測下の頑健性を向上させるか。
RQ3CAPA における LoRA と VPT は精度と効率の点でどう比較されるか。
RQ4CAPA は室内・室外データセットおよび異なるベースモデルにどれだけ generalize できるか。

主な発見

Method	ScanNet AbsRel (%)	7-Scenes AbsRel (%)	iBims AbsRel (%)	Metropolis AbsRel (%)	Avg Rank
CAPA LoRA	1.0	0.9	1.1	2.8	1.0
CAPA VPT	1.1	1.0	1.0	2.6	1.1

CAPA（LoRA または VPT）は、4つのデータセット（ScanNet、7-Scenes、iBims、Metropolis）で一貫してベースラインを上回る。
CAPA は競合手法と比較して、多くの設定でベースモデルの AbsRel 誤差を約2×の要因で削減する。
シーケンスレベルの適応は、フレームごとのチューニングと比べて時間的一貫性（OPW が低い）を改善。
CAPA は0.39M パラメータのみ更新することで最先端の結果を達成し、完全微調整と比較して効率性を強調。
CAPA は CAPA と組み合わせた場合、VGGT 深度誤差を2〜3倍改善。
時間的および条件付けの頑健性が高まり、条件付け領域と非条件付け領域間の誤差ギャップが小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。