[論文レビュー] Adaptive 1D Video Diffusion Autoencoder
One-Dimensional Diffusion Video Autoencoder (One-DVA) は、可変長の1D潜在トークンを持つトランスフォーマー型エンコーダと、拡散ベースの画素空間デコーダを組み合わせた動画圧縮・再構成手法で、後段の潜在拡散モデルに適した高品質な再構成を実現します。
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.
研究の動機と目的
- 固定長エンコーダを超える適応的でトークン効率の良い動画圧縮を動機づける。
- クエリ機構を通じて可変長の1D潜在を生み出すトランスフォーマー型エンコーダを開発する。
- 再構成品質を向上させるピクセル空間拡散デコーダを導入する。
- エンコーダの焦点と拡散ベースの再構成のバランスを取るために2段階で学習する。
- 潜在表現を生成のために整合させ、後段の潜在拡散モデリングを可能にする。
提案手法
- 構造的および1D潜在表現を時空埋め込みから抽出するVision Transformerを1D学習可能クエリとともに使用する。
- 訓練中に1D潜在長を動的に調整する可変長のドロップアウト機構(マトリョーシカ風)を採用する。
- 構造的潜在と1D潜在の両方を条件付けして動画を再構成するピクセル空間拡散トランスフォーマーデコーダを用いる。
- 拡散ベースの訓練ではフロー整合拡散損失を用いて生成品質を最適化する。
- 潜在空間整合性は1D潜在を構造的潜在空間に一致させる正則化を行い、共同のLDMモデリングを支援する。
- LDMサンプル済み潜在を用いたデコーダのファインチューニングは生成アーチファクトを低減する。

実験結果
リサーチクエスチョン
- RQ1適応的な1D潜在エンコードは、同一圧縮比において固定レートの動画オートエンコーダと再構成品質を同等に保てるか。
- RQ2可変長1D潜在エンコードは、異なる動きや質感の複雑さを持つ動画間でトークン効率を改善しつつ忠実度を維持できるか。
- RQ3拡散ベースのデコードは再構成品質を向上させ、後段の潜在拡散動画生成をサポートするか。
- RQ4潜在空間整合性とデコーダのファインチューニングにより、One-DVA潜在を用いた高品質なテキスト→動画生成やクラス→動画生成が可能か。
- RQ52段階訓練とエンドツーエンド訓練のどちらの戦略が再構成忠実度と生成準備性をより良くするか。
主な発見
| Method | Iters | rFVD (↓) | PSNR (↑) | ||
|---|---|---|---|---|---|
| CogVideoX | 4×8×8 | 68.17 | 34.97 | 0.94 | 0.033 |
| HunyuanVideo | 4×8×8 | 51.47 | 35.54 | 0.94 | 0.023 |
| Wanx2.1 | 4×8×8 | 62.25 | 34.95 | 0.94 | 0.024 |
| Wanx2.2 | 4×16×16 | 60.18 | 35.23 | 0.94 | 0.023 |
| Magi1 | 4×8×8 | 70.07 | 36.25 | 0.95 | 0.035 |
| Ours | 4×16×16 | 56.96 | 36.48 | 0.95 | 0.025 |
| Ours ( Avg 55.8% 1D ) | 4×16×16 / 55.8% | 70.28 | 35.42 | 0.94 | 0.029 |
| Ours ( Con 55.8% 1D ) | 4×16×16 / 55.8% | 72.42 | 35.40 | 0.94 | 0.029 |
| Ours ( 0% 1D ) | / | 149.97 | 32.80 | 0.91 | 0.057 |
- One-DVAは、同じ圧縮比で3D-CNN VAEと同程度の再構成性能を達成する。
- 可変長1D潜在は適応圧縮を可能にし、動きの多い領域では長い潜在がより豊かな詳細を捉える。
- 拡散ベースのデコードは再構成品質を向上させ、動画生成のための後段潜在拡散モデルをサポートする。
- 潜在空間整合性とデコーダのファインチューニングは、LDMサンプル済み潜在からの生成時のアーチファクトを低減する。
- アブレーション実験では、再構成忠実度の観点で2段階訓練がエンドツーエンド訓練より優れる。
- Per-video 1D潜在長を決定するスコアリング機構の使用は、固定長潜在より優れている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。