[论文解读] GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance
GlobalPaint 引入带增强的三维窗口注意力和全局特征引导的分层扩散框架,以实现时空一致性的视频外填,在标准基准上优于此前方法。
Video outpainting extends a video beyond its original boundaries by synthesizing missing border content. Compared with image outpainting, it requires not only per-frame spatial plausibility but also long-range temporal coherence, especially when outpainted content becomes visible across time under camera or object motion. We propose GlobalPaint, a diffusion-based framework for spatiotemporal coherent video outpainting. Our approach adopts a hierarchical pipeline that first outpaints key frames and then completes intermediate frames via an interpolation model conditioned on the completed boundaries, reducing error accumulation in sequential processing. At the model level, we augment a pretrained image inpainting backbone with (i) an Enhanced Spatial-Temporal module featuring 3D windowed attention for stronger spatiotemporal interaction, and (ii) global feature guidance that distills OpenCLIP features from observed regions across all frames into compact global tokens using a dedicated extractor. Comprehensive evaluations on benchmark datasets demonstrate improved reconstruction quality and more natural motion compared to prior methods. Our demo page is https://yuemingpan.github.io/GlobalPaint/
研究动机与目标
- 解决在可见边界之外扩展视频内容时保持逐帧可 plausibility 与长程时间一致性的挑战。
- 提出一个分层流水线,先对关键帧进行外填再插值中间帧以降低误差累积。
- 用一个带有3D 窗口注意力的增强时空模块和来自所有帧的观测区域的全局特征引导来增强图像修复骨干。
- 利用全局线索引导基于扩散的生成,同时避免过高的计算成本。
提出的方法
- 使用分层流水线,先对关键帧外填,再以完成的边界为条件插值得到中间帧。
- 在预训练图像修复骨干上扩展一个增强的时空(EST)模块,使用3D 窗口注意力以扩展时空感受野。
- 通过专用提取器将所有帧中的 OpenCLIP 特征蒸馏为紧凑的全局令牌,并通过跨注意力注入实现全局特征引导。
- 采用潜在扩散模型的修复目标进行训练,并将全局令牌纳入去噪过程以增强全局信息。
- 对一个单独的插值模型进行微调,利用关键帧边界潜在变量和平行观测证据来完成关键帧之间的帧。
- 在 DAVIS 和 YouTube-VOS 上使用 PSNR、SSIM、LPIPS 和 FVD 进行评估。
实验结果
研究问题
- RQ1在有限的时间上下文中,分层扩散框架是否能在视频外填中维持长程时间一致性?
- RQ2引入3D 窗口注意力是否能改善关键帧外填的时空特征交互?
- RQ3从所有帧蒸馏的全局特征引导是否能提升时间一致性和感知质量?
- RQ4关键帧完成之间的插值模型如何影响跨帧的误差累积?
主要发现
| 方法 | DAVIS PSNR | DAVIS SSIM | DAVIS LPIPS | DAVIS FVD | YouTube-VOS PSNR | YouTube-VOS SSIM | YouTube-VOS LPIPS | YouTube-VOS FVD |
|---|---|---|---|---|---|---|---|---|
| Dehan | 17.96 | 0.6272 | 0.2331 | 363.1 | 18.25 | 0.7195 | 0.2278 | 149.7 |
| M3DDM | 20.26 | 0.7082 | 0.2026 | 300.0 | 20.20 | 0.7312 | 0.1854 | 66.62 |
| MOTIA | 20.36 | 0.7578 | 0.1595 | 286.3 | 20.25 | 0.7636 | 0.1727 | 58.99 |
| GlobalPaint | 20.91 | 0.7621 | 0.1540 | 227.8 | 20.89 | 0.7938 | 0.1643 | 60.49 |
- GlobalPaint 在 DAVIS 和 YouTube-VOS 上的 PSNR/SSIM 更高、LPIPS 更低,优于此前方法。
- 在 DAVIS 上,GlobalPaint 的 FVD 为 227.8,相比 M3DDM 降低 24.1%、相比 MOTIA 降低 20.4%。
- 在 YouTube-VOS 上,GlobalPaint 在 PSNR/SSIM/LPIPS 上持续提升,且达到有竞争力的 FVD。
- 消融研究表明增强的时空模块显著降低 FVD(基线 373.42 降至 312.41),再加入全局特征引导后 FVD 进一步降至 273.53。
- 分层处理比逐片处理的序列剪辑方式更具一致性。
- 与某些基线相比,GlobalPaint 在参数、FLOPs、显存与端到端推理时间上表现出有利的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。