Skip to main content
QUICK REVIEW

[论文解读] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|Jan 3, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

YODA 提出一种基于单步扩散的视频编解码器,利用时序感知自编码器、条件潜变量编码器和线性 Diffusion Transformer 实现高效的一步去噪,在感知质量方面具有优势。

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

研究动机与目标

  • 通过利用时序相关性来推动神经视频压缩的感知质量提升。
  • 开发一个可训练的时序感知自编码器,以生成具有多尺度时序条件的紧凑潜在。
  • 将条件潜变量编码器与熵编码建模结合,以在潜在空间中利用时空上下文。
  • 用轻量级线性 Diffusion Transformer 取代传统的 U-Net 去噪,实现高效的一步去噪。
  • 在比特率约束下实现 TA-AE、CLC、DiT 的端到端训练,以获得更好的速率-质量权衡。

提出的方法

  • Temporal-Aware AutoEncoder (TA-AE) 将参考帧的多尺度时序特征注入编码器和解码器,生成更紧凑的潜在表示。
  • Conditional Latent Coder (CLC) 扩展潜在通道至 256,以获得更丰富的时序上下文,并采用两阶段熵模型进行潜在编码。
  • One-Step Denoising with Linear Diffusion Transformer (DiT) 对压缩潜在进行单次一致性去噪。
  • Three-stage training: Stage I 通过复合失真损失加对抗损失对 TA-AE 进行预训练;Stage II 联合训练 CLC 和 DiT,并进行 LoRA 微调;Stage III 在比特率约束下对所有组件进行端到端微调。

实验结果

研究问题

  • RQ1在可训练 TA-AE 中引入多尺度时序条件是否能提升潜在紧凑性和感知质量,相对于逐帧编码器?
  • RQ2带扩展通道和时序参考的 Conditional Latent Coder 是否能提升潜在的熵编码建模?
  • RQ3Linear Diffusion Transformer 是否能够以竞争的感知质量和更低计算成本实现有效的一步去噪,相比 U-Net 基线?
  • RQ4端到端三阶段训练对标准数据集上的速率-质量表现有何影响?
  • RQ5YODA 相较于传统编解码器和基于扩散/视频学习的基线在感知指标上有何表现?

主要发现

DatasetMethodsDISTS ↓LPIPS ↓KID ↓FID ↓
UVGHM-18.0+10.94+54.82+104.51+36.48
UVGDCVC-RT+0.62-21.05+4.53+23.91
UVGPLVC-79.31-89.87-89.55-19.36
UVGGLC-video-90.74-95.38N/AN/A
UVGOurs-98.60-96.83-99.30-96.49
HEVC-BHM-18.0+5.05+51.48+60.94+24.50
HEVC-BDCVC-RT+8.18+31.37+41.40+29.25
HEVC-BPLVC-78.92-82.38-12.06-3.18
HEVC-BGLC-video-86.92-91.94N/AN/A
HEVC-BOurs-98.24-95.67-98.25-94.34
MCL-JCVHM-18.0+15.26+53.79+148.91+80.34
MCL-JCVDCVC-RT+11.12-8.39-23.10-1.07
MCL-JCVPLVC-38.72-61.31-52.28-1.54
MCL-JCVGLC-video-86.25-91.61N/AN/A
MCL-JCVDiffVC-71.80-73.40-18.78N/A
MCL-JCVDiffVC-OSD-83.46-84.38N/A-35.51
MCL-JCVOurs-94.70-93.92-95.24-94.33
  • YODA 在 UVG、HEVC Class B 和 MCL-JCV 数据集上,在感知指标(LPIPS、DISTS、FID、KID)均优于基线。
  • 相对于 DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT 及 HEVC/VVC 基线,在感知指标上显著降低 BD-Rate。
  • 具有五尺度时序条件的 TA-AE 在 LPIPS/DISTS 上取得最佳提升,超过三尺度后收益递减。
  • CLC 的 256 通道潜在表现出显著的性能提升;更大的通道数回报递减且增加延迟。
  • 在 DiT 之前进行 Pre-DiT 时序条件比 Post-DiT 条件在保留时序信息方面更有效。
  • 端到端训练结合速率正则化和对抗损失,提升感知真实感和压缩效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。