Skip to main content
QUICK REVIEW

[論文レビュー] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|Jan 3, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

YODA は、時系列認識オートエンコーダ、条件潜在符号化器、線形 Diffusion Transformer を組み合わせた1ステップ拡散ベースのビデオ圧縮方式を提案し、効率的な1ステップのノイズ除去を実現して、主観的品質で優れた性能を達成します。

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

研究の動機と目的

  • Temporal correlations を活用してニューラルビデオ圧縮の主観品質向上を動機づける。
  • マルチスケールの時系列条件付けを用いた圧縮潜在表現を生成する trainable な時系列認識オートエンコーダを開発する。
  • 潜在空間の時空文脈を活用するため、エントロピー モデリングを伴う条件付き潜在符号化器を統合する。
  • 効率的な1ステップのノイズ除去のため、従来の U-Net デノイザーを軽量な Linear Diffusion Transformer に置換する。
  • TA-AE、CLC、DiT の各成分をエンドツーエンドで学習させ、ビットレート制約の下でレート–品質のトレードオフを改善する。

提案手法

  • Temporal-Aware AutoEncoder (TA-AE) は、参照フレームからのマルチスケール時系列特徴をエンコーダとデコーダに注入して、よりコンパクトな潜在表現を生成する。
  • Conditional Latent Coder (CLC) は潜在チャネルを256に拡張してより豊かな時系列文脈を提供し、潜在符号化のための2段階エントロピーモデルを採用する。
  • One-Step Denoising with Linear Diffusion Transformer (DiT) は、圧縮潜在に対して単一の一貫したノイズ除去ステップを行う。
  • Three-stage training: Stage I は TA-AE を複合歪みと adversarial loss の組み合わせで事前学習; Stage II は LoRA 微調整を用いて CLC と DiT を共同訓練; Stage III は レート制約の下で全コンポーネントをエンドツーエンド微調整する。

実験結果

リサーチクエスチョン

  • RQ1訓練可能な TA-AE におけるマルチスケール時系列条件付けを導入することで、フレーム単位エンコーダと比較して潜在のコンパクト性と主観品質が向上するか。
  • RQ2拡張チャネルと時系列参照を備えた Conditional Latent Coder が潜在空間のエントロピーモデリングを改善するか。
  • RQ3Linear Diffusion Transformer は U-Net ベースラインと比較して、競争力のある主観結果と低い計算コストを持つ1ステップノイズ除去を実現するか。
  • RQ43段階のエンドツーエンド学習が標準データセットにおけるレート–品質性能に与える影響は何か。
  • RQ5YODA は従来のコーデックや既存の拡散ベース/ビデオ学習ベースの手法と比較して、主観的指標でどの程度優れているか。

主な発見

DatasetMethodsDISTS ↓LPIPS ↓KID ↓FID ↓
UVGHM-18.0+10.94+54.82+104.51+36.48
UVGDCVC-RT+0.62-21.05+4.53+23.91
UVGPLVC-79.31-89.87-89.55-19.36
UVGGLC-video-90.74-95.38N/AN/A
UVGOurs-98.60-96.83-99.30-96.49
HEVC-BHM-18.0+5.05+51.48+60.94+24.50
HEVC-BDCVC-RT+8.18+31.37+41.40+29.25
HEVC-BPLVC-78.92-82.38-12.06-3.18
HEVC-BGLC-video-86.92-91.94N/AN/A
HEVC-BOurs-98.24-95.67-98.25-94.34
MCL-JCVHM-18.0+15.26+53.79+148.91+80.34
MCL-JCVDCVC-RT+11.12-8.39-23.10-1.07
MCL-JCVPLVC-38.72-61.31-52.28-1.54
MCL-JCVGLC-video-86.25-91.61N/AN/A
MCL-JCVDiffVC-71.80-73.40-18.78N/A
MCL-JCVDiffVC-OSD-83.46-84.38N/A-35.51
MCL-JCVOurs-94.70-93.92-95.24-94.33
  • YODA は UVG、HEVC Class B、MCL-JCV のデータセットで、ベースラインよりも主観指標(LPIPS、DISTS、FID、KID)が優れている。
  • DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT、HEVC/VVC のアンカーと比較して、主観指標の BD-Rate を大幅に低減。
  • 5スケールの時系列条件付けを持つ TA-AE が LPIPS/DISTS の改善で最も効果的で、3スケールを超えると効果の増加が頭打ちになる。
  • CLC の 256 チャンネル潜在は強い性能向上をもたらすが、より大きなチャネルは収益が頭打ちとなりレイテンシが増大。
  • DiT の前に行われる Pre-DiT 時間条件付けは、DiT 後の条件付けよりも時系列情報を保持する上で有効。
  • レート正則化と adversarial loss を用いたエンドツーエンド学習は、主観的リアリズムと圧縮効率の向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。