[论文解读] YODA: Yet Another One-step Diffusion-based Video Compressor
YODA 提出一种基于单步扩散的视频编解码器,利用时序感知自编码器、条件潜变量编码器和线性 Diffusion Transformer 实现高效的一步去噪,在感知质量方面具有优势。
While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.
研究动机与目标
- 通过利用时序相关性来推动神经视频压缩的感知质量提升。
- 开发一个可训练的时序感知自编码器,以生成具有多尺度时序条件的紧凑潜在。
- 将条件潜变量编码器与熵编码建模结合,以在潜在空间中利用时空上下文。
- 用轻量级线性 Diffusion Transformer 取代传统的 U-Net 去噪,实现高效的一步去噪。
- 在比特率约束下实现 TA-AE、CLC、DiT 的端到端训练,以获得更好的速率-质量权衡。
提出的方法
- Temporal-Aware AutoEncoder (TA-AE) 将参考帧的多尺度时序特征注入编码器和解码器,生成更紧凑的潜在表示。
- Conditional Latent Coder (CLC) 扩展潜在通道至 256,以获得更丰富的时序上下文,并采用两阶段熵模型进行潜在编码。
- One-Step Denoising with Linear Diffusion Transformer (DiT) 对压缩潜在进行单次一致性去噪。
- Three-stage training: Stage I 通过复合失真损失加对抗损失对 TA-AE 进行预训练;Stage II 联合训练 CLC 和 DiT,并进行 LoRA 微调;Stage III 在比特率约束下对所有组件进行端到端微调。
实验结果
研究问题
- RQ1在可训练 TA-AE 中引入多尺度时序条件是否能提升潜在紧凑性和感知质量,相对于逐帧编码器?
- RQ2带扩展通道和时序参考的 Conditional Latent Coder 是否能提升潜在的熵编码建模?
- RQ3Linear Diffusion Transformer 是否能够以竞争的感知质量和更低计算成本实现有效的一步去噪,相比 U-Net 基线?
- RQ4端到端三阶段训练对标准数据集上的速率-质量表现有何影响?
- RQ5YODA 相较于传统编解码器和基于扩散/视频学习的基线在感知指标上有何表现?
主要发现
- YODA 在 UVG、HEVC Class B 和 MCL-JCV 数据集上,在感知指标(LPIPS、DISTS、FID、KID)均优于基线。
- 相对于 DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT 及 HEVC/VVC 基线,在感知指标上显著降低 BD-Rate。
- 具有五尺度时序条件的 TA-AE 在 LPIPS/DISTS 上取得最佳提升,超过三尺度后收益递减。
- CLC 的 256 通道潜在表现出显著的性能提升;更大的通道数回报递减且增加延迟。
- 在 DiT 之前进行 Pre-DiT 时序条件比 Post-DiT 条件在保留时序信息方面更有效。
- 端到端训练结合速率正则化和对抗损失,提升感知真实感和压缩效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。