QUICK REVIEW

[논문 리뷰] Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation

Shifeng Chen, Yihui Li|arXiv (Cornell University)|2026. 03. 13.

Computer Graphics and Visualization Techniques인용 수 0

한 줄 요약

Catalyst4D는 Anchor-based Motion Guidance (AMG)와 Color Uncertainty-guided Appearance Refinement (CUAR)를 사용하여 고품질의 정적 3D Gaussian 편집을 동적 4D 장면으로 전파하고 공간적 정밀도와 시간적 일관성을 보장합니다.

ABSTRACT

Recent advances in 3D scene editing using NeRF and 3DGS enable high-quality static scene editing. In contrast, dynamic scene editing remains challenging, as methods that directly extend 2D diffusion models to 4D often produce motion artifacts, temporal flickering, and inconsistent style propagation. We introduce Catalyst4D, a framework that transfers high-quality 3D edits to dynamic 4D Gaussian scenes while maintaining spatial and temporal coherence. At its core, Anchor-based Motion Guidance (AMG) builds a set of structurally stable and spatially representative anchors from both original and edited Gaussians. These anchors serve as robust region-level references, and their correspondences are established via optimal transport to enable consistent deformation propagation without cross-region interference or motion drift. Complementarily, Color Uncertainty-guided Appearance Refinement (CUAR) preserves temporal appearance consistency by estimating per-Gaussian color uncertainty and selectively refining regions prone to occlusion-induced artifacts. Extensive experiments demonstrate that Catalyst4D achieves temporally stable, high-fidelity dynamic scene editing and outperforms existing methods in both visual quality and motion coherence.

연구 동기 및 목표

동적 4D 장면 편집이 모션 아티팩트와 깜박임으로 인해 2D 확산 편집을 4D로 확장할 때 도전적이라는 점을 제시한다.
정지된 3D 편집을 시간적 일관성을 가진 4D 가우시안 장면으로 전이하는 기하학 인식 프레임워크를 제안한다.
공간 편집과 시간 전파를 분리하여 시간에 따른 3D 편집 충실도를 유지한다.
강수(Anchor)와 최적 수송을 통한 강건한 영역 수준 대응을 확립하기 위해 AMG를 도입한다.
색상 불확실성 및 가려짐에 대응하여 시간에 따른 외관 정제를 개선하는 CUAR를 도입한다.

제안 방법

Anchor-based Motion Guidance (AMG)는 원래의 Gaussians와 편집된 Gaussians에서 첫 프레임의 안정적인 영역 수준 앵커를 구축한다.
앵커 간 대응은 국부적이고 의미적으로 일관된 변형 전달을 가능하게 하기 위해 불균형 최적 수송으로 설정된다.
Deformation aggregation은 앵커 기반 매핑과 가중 평균을 사용하여 소스 Gaussians의 시간 편집을 편집된 Gaussians로 전달한다.
Color Uncertainty-guided Appearance Refinement (CUAR)는 각 Gaussian의 색상 불확실성을 탐지하고 기하학적 모션 경로를 따라 신뢰할 수 있는 첫 프레임 색상을 왜곡시키는 등가어 보정으로 가려짐으로 인한 인공물을 줄인다.
Optical-flow-inspired warping supervision은 변형 네트워크를 재학습하지 않고도 프레임 간 외관 일관성을 안내한다.
이 프레임워크는 다양한 4D Gaussian 표현과 호환되며 3D Gaussian Splatting 및 변형-필드 기반 동역학 위에 구축된다.

실험 결과

연구 질문

RQ1정적 3D Gaussian 편집을 시간적 안정성을 가지고 동적 4D 장면으로 신뢰성 있게 전파할 수 있는가?
RQ2AMG와 CUAR가 확산 기반 또는 순진한 전파 방법과 비교할 때 기하학적 충실도와 외관 일관성을 향상시키는가?
RQ3Catalyst4D가 의미 충실도(CLIP 유사도)와 시간적 일관성 측면에서 최첨단 방법 대비 어떻게 수행하는가?
RQ4단안 및 다중 시점 동적 장면 모두를 다루며 보views 간 일관성을 유지할 수 있는가?

주요 결과

Scene	Method	CLIP Sim ↑	Consistency ↑	Time ↓
Sear-steak	Ours	0.252	0.983	50 min
Sear-steak	IN4D	0.246	0.962	2 h ∗
Sear-steak	I4DGS	0.220	0.980	40 min
Coffee-martini	Ours	0.249	0.986	50 min
Coffee-martini	IN4D	0.241	0.981	2 h ∗
Coffee-martini	I4DGS	0.244	0.977	40 min
Trimming	Ours	0.251	0.967	40 min
Trimming	IN4D	0.243	0.945	2 h ∗
Trimming	I4DGS	0.245	0.964	30 min

Catalyst4D는 여러 장면과 시점에서 시간적으로 안정적이고 높은 충실도의 동적 장면 편집을 달성한다.
DyNeRF 및 MeetRoom 데이터셋에서 Catalyst4D는 CLIP 유사도가 더 높고 Instruct 4D-to-4D, Instruct-4DGS 및 CTRL-D 대비 강한 시간적 일관성을 보인다.
Anchor-based Motion Guidance (AMG)는 순진한 KNN 또는 DeformNet 기반 전파보다 우수하여 모션 아티펙트를 감소시키고 영역 수준의 의미를 보존한다.
CUAR는 각 Gaussian의 색상 불확실성과 첫 프레임으로부터의 워핑 감독을 활용하여 색상 깜박임과 인공물 영역을 크게 감소시킨다.
학습 시간은 최첨단 방법과 경쟁적이면서도 더 우수한 의미 충실도와 강력한 시간적 일관성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.