Skip to main content
QUICK REVIEW

[論文レビュー] S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models

Xinze Li, Pengxu Chen|arXiv (Cornell University)|Mar 18, 2026
3D Shape Modeling and Analysis被引用数 0
ひとこと要約

S-VGGTは、入力フレームを共通のアンカーフレームを持つサブシーンの少数に分割することでグローバルアテンションの二次コストを削減し、Tokenレベルの加速と相補的に再構成品質を損なうことなく、並列でフレームレベルの効率的処理を可能にする。

ABSTRACT

Feed-forward 3D foundation models face a key challenge: the quadratic computational cost introduced by global attention, which severely limits scalability as input length increases. Concurrent acceleration methods, such as token merging, operate at the token level. While they offer local savings, the required nearest-neighbor searches introduce undesirable overhead. Consequently, these techniques fail to tackle the fundamental issue of structural redundancy dominant in dense capture data. In this work, we introduce extbf{S-VGGT}, a novel approach that addresses redundancy at the structural frame level, drastically shifting the optimization focus. We first leverage the initial features to build a dense scene graph, which characterizes structural scene redundancy and guides the subsequent scene partitioning. Using this graph, we softly assign frames to a small number of subscenes, guaranteeing balanced groups and smooth geometric transitions. The core innovation lies in designing the subscenes to share a common reference frame, establishing a parallel geometric bridge that enables independent and highly efficient processing without explicit geometric alignment. This structural reorganization provides strong intrinsic acceleration by cutting the global attention cost at its source. Crucially, S-VGGT is entirely orthogonal to token-level acceleration methods, allowing the two to be seamlessly combined for compounded speedups without compromising reconstruction fidelity. Code is available at https://github.com/Powertony102/S-VGGT.

研究の動機と目的

  • dense captureデータ上の前方伝播型3D foundationモデルにおける二次のグローバルアテンションのスケーラビリティボトルネックを動機づけ、対処する。
  • 初期特徴からシーングラフを構築してフレームレベルの冗長性削減戦略を開発する。
  • 共通の参照フレームを持ついくつかのまとまりのあるサブシーンにフレームを分割し、並列・独立処理を可能にする。
  • トークンレベルの加速手法への直交性を示し、トークン統合と組み合わせた場合に速度向上が複合することを示す。
  • 長いシーケンスに対して速度向上と再構成忠実度を検証する標準3D再構築データセットで評価する。

提案手法

  • 初期フレーム特徴から密なシーングラフを構築して構造的冗長性を定量化し、サブシーン形成を誘導する。
  • 各フレームのパッチトークンを平均化しコサイン類似度と合わせてフレームレベルの密度認識型アフィニティを計算し、フレーム類似度マトリクスを得る。
  • コヒーレンス・バランス・シャープネスの正則化子(L_coh, L_bal, L_sharp)を用いた微分可能なソフト割り当てAを使ってフレームをKのサブシーンにグループ化する。
  • すべてのサブシーンに共通の参照フレームを割り当て、並列処理を保証する(Anchor Frame Sharing)ことでサブシーンが統一座標系を共有する。
  • 共通アンカーフレームを持つ各サブシーンを独立に処理し、明示的な後処理配置なしにアテンション計算を削減し並列推論を実現する。
  • グローバルアテンションコストがO((NT)^2)からO((NT)^2 / K)に低減し、類似計算のオーバーヘッドがO(N^2)であることを含む複雑さ分析を提供し、トークンレベルの加速手法への直交性を強調する。
Figure 1: Comparison of VGGT (2.69 FPS) and S-VGGT (10.13 FPS) on a 500-frame scene. S-VGGT achieves a significant speedup by processing subscenes in parallel while maintaining reconstruction quality.
Figure 1: Comparison of VGGT (2.69 FPS) and S-VGGT (10.13 FPS) on a 500-frame scene. S-VGGT achieves a significant speedup by processing subscenes in parallel while maintaining reconstruction quality.

実験結果

リサーチクエスチョン

  • RQ1サブシーン分割によるフレームレベルの冗長性削減は、全アテンションベースの基準と比較して再構成忠実度を保持するか。
  • RQ2共通アンカーフレームを持つサブシーンに長く密なシーケンスを分割することで、どれくらいの速度アップとメモリ節約が得られるか。
  • RQ3アンカーフレーム共有はサブシーン間で統一的なグローバル座標系を効果的に維持し、コストの高いアライメント後処理を回避できるか。
  • RQ4S-VGGTはトークンレベルの加速手法とどう相互作用し、トークン統合と組み合わせた場合に複合的な速度向上を提供できるか。
  • RQ5スキャンネット、Neural RGB-D、7Scenesといった多様な3D再構築ベンチマークおよび長長の入力で一貫して利得が見られるか。

主な発見

  • サブシーンを並列処理することでグローバルアテンションコストを低減し、再構成忠実度を維持しつつ大幅な速度アップを達成する。
  • Anchor Frame Sharingによりサブシーンが統一座標系内で整列され、計算コストの高い幾何最適化を回避する。
  • フレームレベルの密度ガイド付きソフトグルーピングは、入力冗長性に応じてサブシーン数を適応させ、密なシーケンスと多様なシーケンスの効率的な処理を実現する。
  • 長いシーケンスでのカメラ姿勢推定とより密な再構成で有意な改善を示し、S-VGGTはVGGT*ベースラインを上回るか同等である。
  • 本手法はトークンレベルの加速と直交しており、トークン統合技術(例: FastVGGT)と組み合わせると複合的な速度向上をもたらす。
  • 長いシーケンス(例: 1000-frame scans)で、推論の高速化(数倍のゲインまで)と堅牢な幾何学精度(ATE/ARE/RPE指標)を強力なベースラインと比較して提供する。
Figure 2: The framework of S-VGGT. The input frames are first embedded into tokens, and frame similarity is calculated to assess redundancy. Frames are then grouped into subscenes via soft assignment, ensuring parallel processing. A shared reference frame across subscenes enables efficient global an
Figure 2: The framework of S-VGGT. The input frames are first embedded into tokens, and frame similarity is calculated to assess redundancy. Frames are then grouped into subscenes via soft assignment, ensuring parallel processing. A shared reference frame across subscenes enables efficient global an

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。