QUICK REVIEW

[論文レビュー] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|Jan 3, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

YODA は、時系列認識オートエンコーダ、条件潜在符号化器、線形 Diffusion Transformer を組み合わせた1ステップ拡散ベースのビデオ圧縮方式を提案し、効率的な1ステップのノイズ除去を実現して、主観的品質で優れた性能を達成します。

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

研究の動機と目的

Temporal correlations を活用してニューラルビデオ圧縮の主観品質向上を動機づける。
マルチスケールの時系列条件付けを用いた圧縮潜在表現を生成する trainable な時系列認識オートエンコーダを開発する。
潜在空間の時空文脈を活用するため、エントロピーモデリングを伴う条件付き潜在符号化器を統合する。
効率的な1ステップのノイズ除去のため、従来の U-Net デノイザーを軽量な Linear Diffusion Transformer に置換する。
TA-AE、CLC、DiT の各成分をエンドツーエンドで学習させ、ビットレート制約の下でレート–品質のトレードオフを改善する。

提案手法

Temporal-Aware AutoEncoder (TA-AE) は、参照フレームからのマルチスケール時系列特徴をエンコーダとデコーダに注入して、よりコンパクトな潜在表現を生成する。
Conditional Latent Coder (CLC) は潜在チャネルを256に拡張してより豊かな時系列文脈を提供し、潜在符号化のための2段階エントロピーモデルを採用する。
One-Step Denoising with Linear Diffusion Transformer (DiT) は、圧縮潜在に対して単一の一貫したノイズ除去ステップを行う。
Three-stage training: Stage I は TA-AE を複合歪みと adversarial loss の組み合わせで事前学習; Stage II は LoRA 微調整を用いて CLC と DiT を共同訓練; Stage III はレート制約の下で全コンポーネントをエンドツーエンド微調整する。

実験結果

リサーチクエスチョン

RQ1訓練可能な TA-AE におけるマルチスケール時系列条件付けを導入することで、フレーム単位エンコーダと比較して潜在のコンパクト性と主観品質が向上するか。
RQ2拡張チャネルと時系列参照を備えた Conditional Latent Coder が潜在空間のエントロピーモデリングを改善するか。
RQ3Linear Diffusion Transformer は U-Net ベースラインと比較して、競争力のある主観結果と低い計算コストを持つ1ステップノイズ除去を実現するか。
RQ43段階のエンドツーエンド学習が標準データセットにおけるレート–品質性能に与える影響は何か。
RQ5YODA は従来のコーデックや既存の拡散ベース/ビデオ学習ベースの手法と比較して、主観的指標でどの程度優れているか。

主な発見

Dataset	Methods	DISTS ↓	LPIPS ↓	KID ↓	FID ↓
UVG	HM-18.0	+10.94	+54.82	+104.51	+36.48
UVG	DCVC-RT	+0.62	-21.05	+4.53	+23.91
UVG	PLVC	-79.31	-89.87	-89.55	-19.36
UVG	GLC-video	-90.74	-95.38	N/A	N/A
UVG	Ours	-98.60	-96.83	-99.30	-96.49
HEVC-B	HM-18.0	+5.05	+51.48	+60.94	+24.50
HEVC-B	DCVC-RT	+8.18	+31.37	+41.40	+29.25
HEVC-B	PLVC	-78.92	-82.38	-12.06	-3.18
HEVC-B	GLC-video	-86.92	-91.94	N/A	N/A
HEVC-B	Ours	-98.24	-95.67	-98.25	-94.34
MCL-JCV	HM-18.0	+15.26	+53.79	+148.91	+80.34
MCL-JCV	DCVC-RT	+11.12	-8.39	-23.10	-1.07
MCL-JCV	PLVC	-38.72	-61.31	-52.28	-1.54
MCL-JCV	GLC-video	-86.25	-91.61	N/A	N/A
MCL-JCV	DiffVC	-71.80	-73.40	-18.78	N/A
MCL-JCV	DiffVC-OSD	-83.46	-84.38	N/A	-35.51
MCL-JCV	Ours	-94.70	-93.92	-95.24	-94.33

YODA は UVG、HEVC Class B、MCL-JCV のデータセットで、ベースラインよりも主観指標（LPIPS、DISTS、FID、KID）が優れている。
DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT、HEVC/VVC のアンカーと比較して、主観指標の BD-Rate を大幅に低減。
5スケールの時系列条件付けを持つ TA-AE が LPIPS/DISTS の改善で最も効果的で、3スケールを超えると効果の増加が頭打ちになる。
CLC の 256 チャンネル潜在は強い性能向上をもたらすが、より大きなチャネルは収益が頭打ちとなりレイテンシが増大。
DiT の前に行われる Pre-DiT 時間条件付けは、DiT 後の条件付けよりも時系列情報を保持する上で有効。
レート正則化と adversarial loss を用いたエンドツーエンド学習は、主観的リアリズムと圧縮効率の向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。