Skip to main content
QUICK REVIEW

[論文レビュー] Depth Completion as Parameter-Efficient Test-Time Adaptation

Bingxin Ke, Qunjie Zhou|arXiv (Cornell University)|Feb 16, 2026
Advanced Vision and Imaging被引用数 0
ひとこと要約

CAPA は、パラメータ効率のテスト時適応を用いて、バックボーンを凍結したまま軽量な PEFT コンポーネント(LoRA または VPT)を更新することで、深度補完の3D基盤モデルを grounding し、屋内外データセットで最先端の結果を達成します。シーケンスレベルのパラメータ共有による動画への適用も拡張され、時間的一貫性を確保します。

ABSTRACT

We introduce CAPA, a parameter-efficient test-time optimization framework that adapts pre-trained 3D foundation models (FMs) for depth completion, using sparse geometric cues. Unlike prior methods that train task-specific encoders for auxiliary inputs, which often overfit and generalize poorly, CAPA freezes the FM backbone. Instead, it updates only a minimal set of parameters using Parameter-Efficient Fine-Tuning (e.g. LoRA or VPT), guided by gradients calculated directly from the sparse observations available at inference time. This approach effectively grounds the foundation model's geometric prior in the scene-specific measurements, correcting distortions and misplaced structures. For videos, CAPA introduces sequence-level parameter sharing, jointly adapting all frames to exploit temporal correlations, improve robustness, and enforce multi-frame consistency. CAPA is model-agnostic, compatible with any ViT-based FM, and achieves state-of-the-art results across diverse condition patterns on both indoor and outdoor datasets. Project page: research.nvidia.com/labs/dvl/projects/capa.

研究の動機と目的

  • 凍結された3D基盤モデルの幾何学的 priors を疎なテスト時深度手掛かりで groundingする。
  • ベースモデルを保持しつつ少数のパラメータだけを更新するパラメータ効率的適応フレームワークを開発する。
  • CAPA を動画へ拡張しフレーム間でパラメータを共有して時間的一貫性を向上させる。
  • 室内および屋外データセット、複数のベースモデルと PEFT 戦略を用いて CAPA を評価する。

提案手法

  • ViT ベースの3D基盤モデルのバックボーンを凍結し、コンパクトな PEFT コンポーネントだけを更新する。
  • attention 層で LoRA(W_q, W_k, W_v への低ランク更新)または Visual Prompt Tuning(学習可能なプロンプトトークンを先頭に追加)を適用する。
  • 疎な深度とスケールの曖昧性を解消するために、データごとにアフィン整列(スケールとシフト)を計算し、有効ピクセル上の L1 損失を逆伝播する。
  • 動画の場合、フレーム間で同じ学習可能パラメータを共有し、ミニバッチで最適化して時間的一貫性を強制する。
  • 学習可能パラメータ数は両方の CAPA 変種で0.39M、サンプルあたり100の最適化ステップ。
  • CAPA はVGGTと互換であることを示し、UniDepthV2 および MoGe-2 ベースモデルへ拡張する。

実験結果

リサーチクエスチョン

  • RQ1凍結された3D基盤モデルのパラメータ効率的微調整は、テスト時の疎な手掛かりを用いた深度補完を改善できるか。
  • RQ2動画フレーム全体でのシーケンスレベル(共有)適応は、時間的一貫性と稀な観測下の頑健性を向上させるか。
  • RQ3CAPA における LoRA と VPT は精度と効率の点でどう比較されるか。
  • RQ4CAPA は室内・室外データセットおよび異なるベースモデルにどれだけ generalize できるか。

主な発見

MethodScanNet AbsRel (%)7-Scenes AbsRel (%)iBims AbsRel (%)Metropolis AbsRel (%)Avg Rank
CAPA LoRA1.00.91.12.81.0
CAPA VPT1.11.01.02.61.1
  • CAPA(LoRA または VPT)は、4つのデータセット(ScanNet、7-Scenes、iBims、Metropolis)で一貫してベースラインを上回る。
  • CAPA は競合手法と比較して、多くの設定でベースモデルの AbsRel 誤差を約2×の要因で削減する。
  • シーケンスレベルの適応は、フレームごとのチューニングと比べて時間的一貫性(OPW が低い)を改善。
  • CAPA は0.39M パラメータのみ更新することで最先端の結果を達成し、完全微調整と比較して効率性を強調。
  • CAPA は CAPA と組み合わせた場合、VGGT 深度誤差を2〜3倍改善。
  • 時間的および条件付けの頑健性が高まり、条件付け領域と非条件付け領域間の誤差ギャップが小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。