[論文レビュー] Depth Completion as Parameter-Efficient Test-Time Adaptation
CAPA は、パラメータ効率のテスト時適応を用いて、バックボーンを凍結したまま軽量な PEFT コンポーネント(LoRA または VPT)を更新することで、深度補完の3D基盤モデルを grounding し、屋内外データセットで最先端の結果を達成します。シーケンスレベルのパラメータ共有による動画への適用も拡張され、時間的一貫性を確保します。
We introduce CAPA, a parameter-efficient test-time optimization framework that adapts pre-trained 3D foundation models (FMs) for depth completion, using sparse geometric cues. Unlike prior methods that train task-specific encoders for auxiliary inputs, which often overfit and generalize poorly, CAPA freezes the FM backbone. Instead, it updates only a minimal set of parameters using Parameter-Efficient Fine-Tuning (e.g. LoRA or VPT), guided by gradients calculated directly from the sparse observations available at inference time. This approach effectively grounds the foundation model's geometric prior in the scene-specific measurements, correcting distortions and misplaced structures. For videos, CAPA introduces sequence-level parameter sharing, jointly adapting all frames to exploit temporal correlations, improve robustness, and enforce multi-frame consistency. CAPA is model-agnostic, compatible with any ViT-based FM, and achieves state-of-the-art results across diverse condition patterns on both indoor and outdoor datasets. Project page: research.nvidia.com/labs/dvl/projects/capa.
研究の動機と目的
- 凍結された3D基盤モデルの幾何学的 priors を疎なテスト時深度手掛かりで groundingする。
- ベースモデルを保持しつつ少数のパラメータだけを更新するパラメータ効率的適応フレームワークを開発する。
- CAPA を動画へ拡張しフレーム間でパラメータを共有して時間的一貫性を向上させる。
- 室内および屋外データセット、複数のベースモデルと PEFT 戦略を用いて CAPA を評価する。
提案手法
- ViT ベースの3D基盤モデルのバックボーンを凍結し、コンパクトな PEFT コンポーネントだけを更新する。
- attention 層で LoRA(W_q, W_k, W_v への低ランク更新)または Visual Prompt Tuning(学習可能なプロンプトトークンを先頭に追加)を適用する。
- 疎な深度とスケールの曖昧性を解消するために、データごとにアフィン整列(スケールとシフト)を計算し、有効ピクセル上の L1 損失を逆伝播する。
- 動画の場合、フレーム間で同じ学習可能パラメータを共有し、ミニバッチで最適化して時間的一貫性を強制する。
- 学習可能パラメータ数は両方の CAPA 変種で0.39M、サンプルあたり100の最適化ステップ。
- CAPA はVGGTと互換であることを示し、UniDepthV2 および MoGe-2 ベースモデルへ拡張する。
実験結果
リサーチクエスチョン
- RQ1凍結された3D基盤モデルのパラメータ効率的微調整は、テスト時の疎な手掛かりを用いた深度補完を改善できるか。
- RQ2動画フレーム全体でのシーケンスレベル(共有)適応は、時間的一貫性と稀な観測下の頑健性を向上させるか。
- RQ3CAPA における LoRA と VPT は精度と効率の点でどう比較されるか。
- RQ4CAPA は室内・室外データセットおよび異なるベースモデルにどれだけ generalize できるか。
主な発見
| Method | ScanNet AbsRel (%) | 7-Scenes AbsRel (%) | iBims AbsRel (%) | Metropolis AbsRel (%) | Avg Rank |
|---|---|---|---|---|---|
| CAPA LoRA | 1.0 | 0.9 | 1.1 | 2.8 | 1.0 |
| CAPA VPT | 1.1 | 1.0 | 1.0 | 2.6 | 1.1 |
- CAPA(LoRA または VPT)は、4つのデータセット(ScanNet、7-Scenes、iBims、Metropolis)で一貫してベースラインを上回る。
- CAPA は競合手法と比較して、多くの設定でベースモデルの AbsRel 誤差を約2×の要因で削減する。
- シーケンスレベルの適応は、フレームごとのチューニングと比べて時間的一貫性(OPW が低い)を改善。
- CAPA は0.39M パラメータのみ更新することで最先端の結果を達成し、完全微調整と比較して効率性を強調。
- CAPA は CAPA と組み合わせた場合、VGGT 深度誤差を2〜3倍改善。
- 時間的および条件付けの頑健性が高まり、条件付け領域と非条件付け領域間の誤差ギャップが小さくなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。