QUICK REVIEW

[論文レビュー] Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation

Shifeng Chen, Yihui Li|arXiv (Cornell University)|Mar 13, 2026

Computer Graphics and Visualization Techniques被引用数 0

ひとこと要約

Catalyst4D は Anchor-based Motion Guidance (AMG) と Color Uncertainty-guided Appearance Refinement (CUAR) を用いて、動的な 4D シーンへ高品質な静的 3D ガウギアン編集を伝搬し、空間的精度と時間的一貫性を確保します。

ABSTRACT

Recent advances in 3D scene editing using NeRF and 3DGS enable high-quality static scene editing. In contrast, dynamic scene editing remains challenging, as methods that directly extend 2D diffusion models to 4D often produce motion artifacts, temporal flickering, and inconsistent style propagation. We introduce Catalyst4D, a framework that transfers high-quality 3D edits to dynamic 4D Gaussian scenes while maintaining spatial and temporal coherence. At its core, Anchor-based Motion Guidance (AMG) builds a set of structurally stable and spatially representative anchors from both original and edited Gaussians. These anchors serve as robust region-level references, and their correspondences are established via optimal transport to enable consistent deformation propagation without cross-region interference or motion drift. Complementarily, Color Uncertainty-guided Appearance Refinement (CUAR) preserves temporal appearance consistency by estimating per-Gaussian color uncertainty and selectively refining regions prone to occlusion-induced artifacts. Extensive experiments demonstrate that Catalyst4D achieves temporally stable, high-fidelity dynamic scene editing and outperforms existing methods in both visual quality and motion coherence.

研究の動機と目的

モーションアーチファクトとフリックリングが生じやすい 2D 拡張の 4D への編集に対して、動的 4D シーン編集を動機づける。
静的な 3D 編集を 4D ガウシアンシーンへ時系列的一貫性を保って転送する幾何学認識フレームワークを提案する。
空間編集と時間的伝搬を分離し、時間を通じて 3D 編集の忠実度を保持する。
アンカーと最適輸送を用いて堅牢な領域レベルの対応を確立する AMG を導入する。
色の不確実性と遮蔽を考慮して時間を追って外観を refine する CUAR を導入する。

提案手法

Anchor-based Motion Guidance (AMG) は、最初のフレームで元の Gaussian と編集後の Gaussian から安定した領域レベルのアンカーを構築する。
アンカー間の対応は不均衡最適輸送を用いて確立され、局所的で意味的に一貫した変形転送を可能にする。
Deformation aggregation は、ソース Gaussian から編集済み Gaussian へアンカーに基づく写像と重み付き平均を用いて時系列の編集を転送する。
Color Uncertainty-guided Appearance Refinement (CUAR) は、各 Gaussian の色の不確実性を検出し、可視遮蔽によるアーチファクトが生じやすい領域を、モーション軌道に沿って信頼できる初 frame の色をワーピングして選択的に refine する。
光フローに触発されたワーピング監督が、変形ネットワークの再学習なしにフレーム間の外観整合性を導く。
このフレームワークはさまざまな 4D ガウシアン表現に対応可能で、3D ガウシアン・スプラッティングと変形場ベースのダイナミクスの上に構築される。

実験結果

リサーチクエスチョン

RQ1静的な 3D ガウシアン編集を動的な 4D シーンへ、時刻で安定して伝搬させるにはどうすればよいか？
RQ2AMG と CUAR は、拡散ベースや単純な伝搬法と比較して、幾何学的忠実度と外観の一貫性を改善するか？
RQ3Catalyst4D はセマンティック忠実度（CLIP 類似度）と時間的一貫性の点で、最先端手法と比べてどの程度優れているか？
RQ4単眼/マルチビューの動的シーンの両方を、クロスビュー一貫性を保ちながら扱えるか？

主な発見

Scene	Method	CLIP Sim ↑	Consistency ↑	Time ↓
Sear-steak	Ours	0.252	0.983	50 min
Sear-steak	IN4D	0.246	0.962	2 h ∗
Sear-steak	I4DGS	0.220	0.980	40 min
Coffee-martini	Ours	0.249	0.986	50 min
Coffee-martini	IN4D	0.241	0.981	2 h ∗
Coffee-martini	I4DGS	0.244	0.977	40 min
Trimming	Ours	0.251	0.967	40 min
Trimming	IN4D	0.243	0.945	2 h ∗
Trimming	I4DGS	0.245	0.964	30 min

Catalyst4D は、複数のシーンと視点にわたり、時間的に安定した高忠実度の動的シーン編集を実現する。
DyNeRF および MeetRoom データセットでは、Catalyst4D は Instruct 4D-to-4D、Instruct-4DGS、CTRL-D と比べて CLIP 類似度が高く、時間的一貫性が強い。
Anchor-based Motion Guidance (AMG) は naive な KNN や DeformNet ベースの伝搬より優れており、運動アーチファクトを低減し領域レベルの意味を維持する。
CUAR は、各 Gaussian の色不確実性と初 frame からのワーピング監督を活用して、色のフリックやアーティファクト領域を大幅に低減する。
学習時間は最先端手法と競合する水準でありつつ、より高いセマンティック忠実度と堅牢な時間的一貫性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。