QUICK REVIEW

[논문 리뷰] GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance

Yanxia Pan, Ruoyu Feng|arXiv (Cornell University)|2026. 01. 10.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

GlobalPaint은 향상된 3D 윈도우드 어텐션과 글로벌 피처 가이던스로 향상된 계층형 확산 기반 프레임워크를 도입하여 시공간적으로 일관된 비디오 아웃페인팅을 달성하고, 표준 벤치마크에서 기존 방법들보다 우수하게 성능을 보인다.

ABSTRACT

Video outpainting extends a video beyond its original boundaries by synthesizing missing border content. Compared with image outpainting, it requires not only per-frame spatial plausibility but also long-range temporal coherence, especially when outpainted content becomes visible across time under camera or object motion. We propose GlobalPaint, a diffusion-based framework for spatiotemporal coherent video outpainting. Our approach adopts a hierarchical pipeline that first outpaints key frames and then completes intermediate frames via an interpolation model conditioned on the completed boundaries, reducing error accumulation in sequential processing. At the model level, we augment a pretrained image inpainting backbone with (i) an Enhanced Spatial-Temporal module featuring 3D windowed attention for stronger spatiotemporal interaction, and (ii) global feature guidance that distills OpenCLIP features from observed regions across all frames into compact global tokens using a dedicated extractor. Comprehensive evaluations on benchmark datasets demonstrate improved reconstruction quality and more natural motion compared to prior methods. Our demo page is https://yuemingpan.github.io/GlobalPaint/

연구 동기 및 목표

화면에 보이는 경계를 넘어 비디오 내용을 확장하면서 프레임별 가능성과 장기간 시간적 일관성을 유지하는 문제를 다룬다.
먼저 핵심 프레임을 아웃페인트한 뒤 중간 프레임을 보간해 누적 오차를 줄이는 계층형 파이프라인을 제안한다.
관찰된 모든 프레임 영역에서 추출된 정보를 통해 3D 윈도우드 어텐션 모듈과 글로벌 피처 가이던스로 이미지 인페이팅 백본을 향상시킨다.
전체 프레임에 걸친 글로벌 단서를 활용하여 확산 기반 생성에 가이드를 제공하되 계산 비용이 과도하지 않도록 한다.

제안 방법

먼저 핵심 프레임을 아웃페인트한 뒤 경계가 완성된 상태를 조건으로 중간 프레임을 보간하는 계층형 파이프라인을 사용한다.
3D 윈도우드 어텐션을 이용한 Enhanced Spatial-Temporal (EST) 모듈로 확장된 사전 학습된 이미지 인페이팅 백본으로 시공간 수용 영역을 확장한다.
전용 추출기를 통해 모든 프레임에서 OpenCLIP 특징을 소형 글로벌 토큰으로 증류하고 이를 교차 주의(attention)로 주입하여 Global Feature Guidance를 도입한다.
denoising 과정에서 글로벌 토큰을 포함하도록 확장된 잠재 확산 모델 인페인팅 목표로 훈련한다.
핵심 프레임 사이의 프레임을 경계 잠재(latents)와 추가 관찰 증거를 사용하여 완성하기 위해 별도의 보간 모델을 파인튜닝한다.
평가 지표로 DAVIS 및 YouTube-VOS에서 PSNR, SSIM, LPIPS 및 FVD를 사용한다.

실험 결과

연구 질문

RQ1제한된 시간 컨텍스트에서 계층적 확산 기반 프레임 워크가 비디오 아웃페인팅의 장기간 시간 일관성을 유지할 수 있는가?
RQ23D 윈도우드 어텐션을 도입하면 핵심 프레임 아웃페인팅을 위한 시공간 특징 상호작용이 향상되는가?
RQ3모든 프레임에서 증류된 글로벌 피처 가이던스가 시간적 일관성과 지각 품질을 개선하는가?
RQ4완성된 핵심 프레임 사이의 인터폴레이션 모델이 프레임 간 오차 누적에 어떤 영향을 미치는가?

주요 결과

방법	DAVIS PSNR	DAVIS SSIM	DAVIS LPIPS	DAVIS FVD	YouTube-VOS PSNR	YouTube-VOS SSIM	YouTube-VOS LPIPS	YouTube-VOS FVD
Dehan	17.96	0.6272	0.2331	363.1	18.25	0.7195	0.2278	149.7
M3DDM	20.26	0.7082	0.2026	300.0	20.20	0.7312	0.1854	66.62
MOTIA	20.36	0.7578	0.1595	286.3	20.25	0.7636	0.1727	58.99
GlobalPaint	20.91	0.7621	0.1540	227.8	20.89	0.7938	0.1643	60.49

GlobalPaint는 DAVIS와 YouTube-VOS에서 기존 방법들보다 더 높은 PSNR/SSIM을 달성하고 LPIPS를 더 낮춰 성능이 우수하다.
DAVIS에서 GlobalPaint는 FVD가 227.8로 M3DDM 대비 24.1% 감소, MOTIA 대비 20.4% 감소를 달성했다.
YouTube-VOS에서 GlobalPaint는 PSNR/SSIM/LPIPS를 지속적으로 개선하고 경쟁력 있는 FVD를 달성한다.
에볼레이션 결과 Enhanced Spatial-Temporal 모듈이 FVD를 크게 줄이고(기준선 373.42에서 312.41로) 글로벌 피처 가이던스 추가로 FVD를 273.53으로 더 감소시켰다.
계층적 처리가 순차적 클립별 처리보다 더 일관된 결과를 가져온다.
GlobalPaint는 특정 베이스라인에 비해 매개변수, FLOPs, 메모리, 엔드 투 엔드 추론 시간 면에서 우수한 트레이드오프를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.