QUICK REVIEW

[论文解读] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|Jan 3, 2026

Generative Adversarial Networks and Image Synthesis被引用 0

一句话总结

YODA 提出一种基于单步扩散的视频编解码器，利用时序感知自编码器、条件潜变量编码器和线性 Diffusion Transformer 实现高效的一步去噪，在感知质量方面具有优势。

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

研究动机与目标

通过利用时序相关性来推动神经视频压缩的感知质量提升。
开发一个可训练的时序感知自编码器，以生成具有多尺度时序条件的紧凑潜在。
将条件潜变量编码器与熵编码建模结合，以在潜在空间中利用时空上下文。
用轻量级线性 Diffusion Transformer 取代传统的 U-Net 去噪，实现高效的一步去噪。
在比特率约束下实现 TA-AE、CLC、DiT 的端到端训练，以获得更好的速率-质量权衡。

提出的方法

Temporal-Aware AutoEncoder (TA-AE) 将参考帧的多尺度时序特征注入编码器和解码器，生成更紧凑的潜在表示。
Conditional Latent Coder (CLC) 扩展潜在通道至 256，以获得更丰富的时序上下文，并采用两阶段熵模型进行潜在编码。
One-Step Denoising with Linear Diffusion Transformer (DiT) 对压缩潜在进行单次一致性去噪。
Three-stage training: Stage I 通过复合失真损失加对抗损失对 TA-AE 进行预训练；Stage II 联合训练 CLC 和 DiT，并进行 LoRA 微调；Stage III 在比特率约束下对所有组件进行端到端微调。

实验结果

研究问题

RQ1在可训练 TA-AE 中引入多尺度时序条件是否能提升潜在紧凑性和感知质量，相对于逐帧编码器？
RQ2带扩展通道和时序参考的 Conditional Latent Coder 是否能提升潜在的熵编码建模？
RQ3Linear Diffusion Transformer 是否能够以竞争的感知质量和更低计算成本实现有效的一步去噪，相比 U-Net 基线？
RQ4端到端三阶段训练对标准数据集上的速率-质量表现有何影响？
RQ5YODA 相较于传统编解码器和基于扩散/视频学习的基线在感知指标上有何表现？

主要发现

Dataset	Methods	DISTS ↓	LPIPS ↓	KID ↓	FID ↓
UVG	HM-18.0	+10.94	+54.82	+104.51	+36.48
UVG	DCVC-RT	+0.62	-21.05	+4.53	+23.91
UVG	PLVC	-79.31	-89.87	-89.55	-19.36
UVG	GLC-video	-90.74	-95.38	N/A	N/A
UVG	Ours	-98.60	-96.83	-99.30	-96.49
HEVC-B	HM-18.0	+5.05	+51.48	+60.94	+24.50
HEVC-B	DCVC-RT	+8.18	+31.37	+41.40	+29.25
HEVC-B	PLVC	-78.92	-82.38	-12.06	-3.18
HEVC-B	GLC-video	-86.92	-91.94	N/A	N/A
HEVC-B	Ours	-98.24	-95.67	-98.25	-94.34
MCL-JCV	HM-18.0	+15.26	+53.79	+148.91	+80.34
MCL-JCV	DCVC-RT	+11.12	-8.39	-23.10	-1.07
MCL-JCV	PLVC	-38.72	-61.31	-52.28	-1.54
MCL-JCV	GLC-video	-86.25	-91.61	N/A	N/A
MCL-JCV	DiffVC	-71.80	-73.40	-18.78	N/A
MCL-JCV	DiffVC-OSD	-83.46	-84.38	N/A	-35.51
MCL-JCV	Ours	-94.70	-93.92	-95.24	-94.33

YODA 在 UVG、HEVC Class B 和 MCL-JCV 数据集上，在感知指标（LPIPS、DISTS、FID、KID）均优于基线。
相对于 DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT 及 HEVC/VVC 基线，在感知指标上显著降低 BD-Rate。
具有五尺度时序条件的 TA-AE 在 LPIPS/DISTS 上取得最佳提升，超过三尺度后收益递减。
CLC 的 256 通道潜在表现出显著的性能提升；更大的通道数回报递减且增加延迟。
在 DiT 之前进行 Pre-DiT 时序条件比 Post-DiT 条件在保留时序信息方面更有效。
端到端训练结合速率正则化和对抗损失，提升感知真实感和压缩效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。