[论文解读] YODA: Yet Another One-step Diffusion-based Video Compressor
YODA 提出一种基于单步扩散的视频编解码器,利用时序感知自编码器、条件潜变量编码器和线性 Diffusion Transformer 实现高效的一步去噪,在感知质量方面具有优势。
While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.
研究动机与目标
- 通过利用时序相关性来推动神经视频压缩的感知质量提升。
- 开发一个可训练的时序感知自编码器,以生成具有多尺度时序条件的紧凑潜在。
- 将条件潜变量编码器与熵编码建模结合,以在潜在空间中利用时空上下文。
- 用轻量级线性 Diffusion Transformer 取代传统的 U-Net 去噪,实现高效的一步去噪。
- 在比特率约束下实现 TA-AE、CLC、DiT 的端到端训练,以获得更好的速率-质量权衡。
提出的方法
- Temporal-Aware AutoEncoder (TA-AE) 将参考帧的多尺度时序特征注入编码器和解码器,生成更紧凑的潜在表示。
- Conditional Latent Coder (CLC) 扩展潜在通道至 256,以获得更丰富的时序上下文,并采用两阶段熵模型进行潜在编码。
- One-Step Denoising with Linear Diffusion Transformer (DiT) 对压缩潜在进行单次一致性去噪。
- Three-stage training: Stage I 通过复合失真损失加对抗损失对 TA-AE 进行预训练;Stage II 联合训练 CLC 和 DiT,并进行 LoRA 微调;Stage III 在比特率约束下对所有组件进行端到端微调。
实验结果
研究问题
- RQ1在可训练 TA-AE 中引入多尺度时序条件是否能提升潜在紧凑性和感知质量,相对于逐帧编码器?
- RQ2带扩展通道和时序参考的 Conditional Latent Coder 是否能提升潜在的熵编码建模?
- RQ3Linear Diffusion Transformer 是否能够以竞争的感知质量和更低计算成本实现有效的一步去噪,相比 U-Net 基线?
- RQ4端到端三阶段训练对标准数据集上的速率-质量表现有何影响?
- RQ5YODA 相较于传统编解码器和基于扩散/视频学习的基线在感知指标上有何表现?
主要发现
| Dataset | Methods | DISTS ↓ | LPIPS ↓ | KID ↓ | FID ↓ |
|---|---|---|---|---|---|
| UVG | HM-18.0 | +10.94 | +54.82 | +104.51 | +36.48 |
| UVG | DCVC-RT | +0.62 | -21.05 | +4.53 | +23.91 |
| UVG | PLVC | -79.31 | -89.87 | -89.55 | -19.36 |
| UVG | GLC-video | -90.74 | -95.38 | N/A | N/A |
| UVG | Ours | -98.60 | -96.83 | -99.30 | -96.49 |
| HEVC-B | HM-18.0 | +5.05 | +51.48 | +60.94 | +24.50 |
| HEVC-B | DCVC-RT | +8.18 | +31.37 | +41.40 | +29.25 |
| HEVC-B | PLVC | -78.92 | -82.38 | -12.06 | -3.18 |
| HEVC-B | GLC-video | -86.92 | -91.94 | N/A | N/A |
| HEVC-B | Ours | -98.24 | -95.67 | -98.25 | -94.34 |
| MCL-JCV | HM-18.0 | +15.26 | +53.79 | +148.91 | +80.34 |
| MCL-JCV | DCVC-RT | +11.12 | -8.39 | -23.10 | -1.07 |
| MCL-JCV | PLVC | -38.72 | -61.31 | -52.28 | -1.54 |
| MCL-JCV | GLC-video | -86.25 | -91.61 | N/A | N/A |
| MCL-JCV | DiffVC | -71.80 | -73.40 | -18.78 | N/A |
| MCL-JCV | DiffVC-OSD | -83.46 | -84.38 | N/A | -35.51 |
| MCL-JCV | Ours | -94.70 | -93.92 | -95.24 | -94.33 |
- YODA 在 UVG、HEVC Class B 和 MCL-JCV 数据集上,在感知指标(LPIPS、DISTS、FID、KID)均优于基线。
- 相对于 DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT 及 HEVC/VVC 基线,在感知指标上显著降低 BD-Rate。
- 具有五尺度时序条件的 TA-AE 在 LPIPS/DISTS 上取得最佳提升,超过三尺度后收益递减。
- CLC 的 256 通道潜在表现出显著的性能提升;更大的通道数回报递减且增加延迟。
- 在 DiT 之前进行 Pre-DiT 时序条件比 Post-DiT 条件在保留时序信息方面更有效。
- 端到端训练结合速率正则化和对抗损失,提升感知真实感和压缩效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。