Skip to main content
QUICK REVIEW

[論文レビュー] MeMix: Writing Less, Remembering More for Streaming 3D Reconstruction

Jiacheng Dong, Huan Li|arXiv (Cornell University)|Mar 16, 2026
Advanced Vision and Imaging被引用数 0
ひとこと要約

MeMix はトレーニング不要のプラグアンドプレイ型メモリ更新モジュールで、リカレント状態をメモリパッチに分割し、最小整合性のパッチを選択的に更新することで、推論メモリを一定に保ちながら長期的ストリーミング3D再構成を改善する。

ABSTRACT

Reconstruction is a fundamental task in 3D vision and a fundamental capability for spatial intelligence. Particularly, streaming 3D reconstruction is central to real-time spatial perception, yet existing recurrent online models often suffer from progressive degradation on long sequences due to state drift and forgetting, motivating inference-time remedies. We present MeMix, a training-free, plug-and-play module that improves streaming reconstruction by recasting the recurrent state into a Memory Mixture. MeMix partitions the state into multiple independent memory patches and updates only the least-aligned memory patches while exactly preserving others. This selective update mitigates catastrophic forgetting while retaining $O(1)$ inference memory, and requires no fine-tuning or additional learnable parameters, making it directly applicable to existing recurrent reconstruction models. Across standard benchmarks (ScanNet, 7-Scenes, KITTI, etc.), under identical backbones and inference settings, MeMix reduces reconstruction completeness error by 15.3% on average (up to 40.0%) across 300--500 frame streams on 7-Scenes. The code is available at https://dongjiacheng06.github.io/MeMix/

研究の動機と目的

  • 長時間スストリーミング3D再構成における状態ドリフトと忘却による劣化を動機付け、対処する。
  • リカレント状態の書き込みを安定化させるためのトレーニング不要のプラグイン型メモリ更新機構を提案する。
  • 最小干渉のメモリパッチの選択的更新が推論メモリ増加や訓練負担を増やさずに干渉を低減することを示す。
  • 標準ベンチマーク上で複数のリカレントバックボーンに対して方法依存性のない改善をデモンストレーションする。

提案手法

  • リカレント状態をメモリパッチの混合として表現し、最も整合性の低いパッチを特定するBottom-kルーティングマスクを計算する。
  • 選択されたメモリパッチのみ更新し、他は保持することでO(1)の推論メモリを確保する。
  • パッチ単位の類似度から導かれる候補状態とルーティングスコアを生成するクロスアテンションベースのデコーダを用いる。
  • ルーティングマスクをテスト時学習率 beta_t と組み合わせて書き込み強度を調整するオプションを持つ。
  • CUT3R、TTT3R/TTSA3R、MeMix がどのように関連するかを示すゲート付きメモリフレームワークの下で更新ルールを統一する。
  • トレーニング不要でプラグアンドプレイ可能な実装を提供し、既存のオンライン再構成パイプラインに組み込むことができる。

実験結果

リサーチクエスチョン

  • RQ1トレーニング不要のパッチ単位メモリルーティング戦略は、異なるリカレントバックボーン間で長期スケールのストリーミング3D再構成を安定化させ得るか。
  • RQ2長いシーケンスにおける最小の(Bottom-k)メモリパッチ更新の精度・完全性・法線一貫性への影響はどうなるか。
  • RQ3MeMix は長期の安定性を向上させつつ、3D再構成タスク(ポーズ、深度、ジオメトリ)で短期の性能を保持するか。
  • RQ4MeMix はメモリと速度の推論効率にどのように影響するか。

主な発見

  • MeMix は同一推論設定の下で、さまざまなバックボーンに対して7-ScenesおよびNRGBDベンチマークで一貫して再構成品質を向上させる。
  • 7-Scenes では MeMix が再構成の完全性誤差を平均で15.3%低減(300–500フレームのストリームでは最大40.0%)。
  • MeMix は長いシーケンスでの精度・完全性・法線一貫性の向上を示し、姿勢推定(ATE)および深度推定指標を改善する。
  • 方法はGPUメモリと推論遅延のごくわずかなオーバーヘッドを維持し、追加の学習可能パラメータや微調整を必要としない。
  • MeMix は最も整合性の低いメモリパッチの選択的更新によりドリフトを低減することで、ベースラインの固定状態手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。