QUICK REVIEW

[論文レビュー] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|Jan 3, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

YODA は、時系列認識オートエンコーダ、条件潜在符号化器、線形 Diffusion Transformer を組み合わせた1ステップ拡散ベースのビデオ圧縮方式を提案し、効率的な1ステップのノイズ除去を実現して、主観的品質で優れた性能を達成します。

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

研究の動機と目的

Temporal correlations を活用してニューラルビデオ圧縮の主観品質向上を動機づける。
マルチスケールの時系列条件付けを用いた圧縮潜在表現を生成する trainable な時系列認識オートエンコーダを開発する。
潜在空間の時空文脈を活用するため、エントロピーモデリングを伴う条件付き潜在符号化器を統合する。
効率的な1ステップのノイズ除去のため、従来の U-Net デノイザーを軽量な Linear Diffusion Transformer に置換する。
TA-AE、CLC、DiT の各成分をエンドツーエンドで学習させ、ビットレート制約の下でレート–品質のトレードオフを改善する。

提案手法

Temporal-Aware AutoEncoder (TA-AE) は、参照フレームからのマルチスケール時系列特徴をエンコーダとデコーダに注入して、よりコンパクトな潜在表現を生成する。
Conditional Latent Coder (CLC) は潜在チャネルを256に拡張してより豊かな時系列文脈を提供し、潜在符号化のための2段階エントロピーモデルを採用する。
One-Step Denoising with Linear Diffusion Transformer (DiT) は、圧縮潜在に対して単一の一貫したノイズ除去ステップを行う。
Three-stage training: Stage I は TA-AE を複合歪みと adversarial loss の組み合わせで事前学習; Stage II は LoRA 微調整を用いて CLC と DiT を共同訓練; Stage III はレート制約の下で全コンポーネントをエンドツーエンド微調整する。

実験結果

リサーチクエスチョン

RQ1訓練可能な TA-AE におけるマルチスケール時系列条件付けを導入することで、フレーム単位エンコーダと比較して潜在のコンパクト性と主観品質が向上するか。
RQ2拡張チャネルと時系列参照を備えた Conditional Latent Coder が潜在空間のエントロピーモデリングを改善するか。
RQ3Linear Diffusion Transformer は U-Net ベースラインと比較して、競争力のある主観結果と低い計算コストを持つ1ステップノイズ除去を実現するか。
RQ43段階のエンドツーエンド学習が標準データセットにおけるレート–品質性能に与える影響は何か。
RQ5YODA は従来のコーデックや既存の拡散ベース/ビデオ学習ベースの手法と比較して、主観的指標でどの程度優れているか。

主な発見

YODA は UVG、HEVC Class B、MCL-JCV のデータセットで、ベースラインよりも主観指標（LPIPS、DISTS、FID、KID）が優れている。
DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT、HEVC/VVC のアンカーと比較して、主観指標の BD-Rate を大幅に低減。
5スケールの時系列条件付けを持つ TA-AE が LPIPS/DISTS の改善で最も効果的で、3スケールを超えると効果の増加が頭打ちになる。
CLC の 256 チャンネル潜在は強い性能向上をもたらすが、より大きなチャネルは収益が頭打ちとなりレイテンシが増大。
DiT の前に行われる Pre-DiT 時間条件付けは、DiT 後の条件付けよりも時系列情報を保持する上で有効。
レート正則化と adversarial loss を用いたエンドツーエンド学習は、主観的リアリズムと圧縮効率の向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。