[論文レビュー] GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance
GlobalPaint は階層的拡散フレームワークを導入し、強化された3D ウィンドウ付きアテンションとグローバル特徴指導を組み合わせて、時空間的に一貫した動画のアウトペイントを実現。DAVISおよびYouTube-VOSの標準ベンチマークで従来法を上回る。
Video outpainting extends a video beyond its original boundaries by synthesizing missing border content. Compared with image outpainting, it requires not only per-frame spatial plausibility but also long-range temporal coherence, especially when outpainted content becomes visible across time under camera or object motion. We propose GlobalPaint, a diffusion-based framework for spatiotemporal coherent video outpainting. Our approach adopts a hierarchical pipeline that first outpaints key frames and then completes intermediate frames via an interpolation model conditioned on the completed boundaries, reducing error accumulation in sequential processing. At the model level, we augment a pretrained image inpainting backbone with (i) an Enhanced Spatial-Temporal module featuring 3D windowed attention for stronger spatiotemporal interaction, and (ii) global feature guidance that distills OpenCLIP features from observed regions across all frames into compact global tokens using a dedicated extractor. Comprehensive evaluations on benchmark datasets demonstrate improved reconstruction quality and more natural motion compared to prior methods. Our demo page is https://yuemingpan.github.io/GlobalPaint/
研究の動機と目的
- 視界 Border を越えて動画コンテンツを拡張する際に、フレームごとの妥当性と長距離時系列一貫性を維持するという課題に取り組む。
- まず重要フレームをアウトペイントし、その後中間フレームを補間して誤差蓄積を低減する階層的パイプラインを提案する。
- すべてのフレームにわたる観測領域から蒸留した3D ウィンドウド・アテンションモジュールとグローバル特徴指導で、画像インペインティングのバックボーンを強化する。
- グローバル手がかりを活用して、過度な計算コストをかけずに拡散ベース生成を導く。
提案手法
- まずキー・フレームをアウトペイントし、その後境界を完成させた状態を条件に中間フレームを補間する階層的パイプラインを使用する。
- 拡張された空間-時間 EST モジュールを用いて、3D ウィンドウドアテンションを導入し、時空受容野を拡大する pretrained 画像インペインティングバックボーンを拡張する。
- 専用の抽出機を介して全フレームから OpenCLIP 特徴をコンパクトなグローバルトークンに蒸留し、クロスアテンションを介して注入することで Global Feature Guidance を導入する。
- 拡散モデルのインペインティング目的で訓練し、再構成過程にグローバルトークンを追加するように拡張する。
- キー・フレーム間を結ぶ補間モデルを別途微調整し、境界 latent と追加の観測証拠を用いてフレームを完成させる。
- DAVISと YouTube-VOS で PSNR、SSIM、LPIPS、FVD を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1階層的拡散ベースのフレームワークは、限られた temporal context で動画アウトペイントの長距離時系列一貫性を維持できるか。
- RQ23D ウィンドウドアテンションを組み込むと、キー・フレームのアウトペイントにおける時空間特徴の相互作用は改善されるか。
- RQ3全フレームから蒸留したグローバル特徴指導は、時系列の一貫性と知覚品質を改善するか。
- RQ4完成したキー・フレーム間の補間モデルは、フレーム間の誤差蓄積にどのように影響するか。
主な発見
| Method | DAVIS PSNR | DAVIS SSIM | DAVIS LPIPS | DAVIS FVD | YouTube-VOS PSNR | YouTube-VOS SSIM | YouTube-VOS LPIPS | YouTube-VOS FVD |
|---|---|---|---|---|---|---|---|---|
| Dehan | 17.96 | 0.6272 | 0.2331 | 363.1 | 18.25 | 0.7195 | 0.2278 | 149.7 |
| M3DDM | 20.26 | 0.7082 | 0.2026 | 300.0 | 20.20 | 0.7312 | 0.1854 | 66.62 |
| MOTIA | 20.36 | 0.7578 | 0.1595 | 286.3 | 20.25 | 0.7636 | 0.1727 | 58.99 |
| GlobalPaint | 20.91 | 0.7621 | 0.1540 | 227.8 | 20.89 | 0.7938 | 0.1643 | 60.49 |
- GlobalPaint は DAVIS および YouTube-VOS で従来法より高い PSNR/SSIM を達成し、LPIPS を低く抑える。
- DAVIS で GlobalPaint は FVD が 227.8、M3DDM に対して 24.1% 減、MOTIA に対しても 20.4% 減。
- YouTube-VOS では GlobalPaint が一貫して PSNR/SSIM/LPIPS を改善し、競争力のある FVD を達成。
- アブレーションにより Enhanced Spatial-Temporal モジュールが FVD を大幅に削減(ベースライン 373.42 から 312.41)、グローバル特徴指導の追加でさらに FVD が 273.53 へ低下。
- 階層的処理は逐次的なクリップごと処理より安定した結果を生む。
- GlobalPaint はパラメータ、FLOPs、メモリ、エンドツーエンド推論時間の点で、いくつかのベースラインと比較して有利なトレードオフを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。