QUICK REVIEW

[论文解读] Adaptive 1D Video Diffusion Autoencoder

Yao Teng, Minxuan Lin|arXiv (Cornell University)|Feb 4, 2026

Generative Adversarial Networks and Image Synthesis被引用 0

一句话总结

One-Dimensional Diffusion Video Autoencoder (One-DVA) 使用带有可变长度 1D 潜在令牌的基于变压器的编码器和基于扩散的像素空间解码器，从而实现自适应视频压缩和适用于下游潜在扩散模型的高质量重建。

ABSTRACT

Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.

研究动机与目标

推动超越固定码率编码器的自适应、令牌高效的视频压缩。
开发一个通过查询机制得出可变长度 1D 潜在表示的基于变压器的编码器。
引入像素空间扩散解码器以提升重建质量。
分两阶段训练以在编码器聚焦与基于扩散的重建之间取得平衡。
通过对齐潜在表示以实现与生成相关的下游潜在扩散建模。

提出的方法

编码器使用带有 1D 可学习查询的视觉变换器，从时空嵌入中提取结构和 1D 潜在表示。
一种变量长度的 dropout 机制（受蛋糕娃娃层 inspired）在训练过程中动态调整 1D 潜在长度。
像素空间扩散变换器解码器在结构潜在和 1D 潜在的条件下重建视频。
基于扩散的训练使用流式匹配扩散损失来优化生成质量。
潜在空间对齐正规化 1D 潜在以匹配结构潜在空间，从而实现联合的 LDM 建模。
解码器在 LDM 采样潜在表示上进行微调以缓解生成伪影。

Figure 2 : Overview: our One-DVA consists of an encoder, a diffusion decoder and a latent dropout module. The encoder utilizes a vision transformer with 1D queries to extract input video features and outputs low-dimensional latents. The latent dropout module dynamically adjusts the length of 1D late

实验结果

研究问题

RQ1自适应的 1D 潜在编码在相同压缩比下是否能达到固定码率视频自编码器的重建质量？
RQ2可变长度的 1D 潜在编码是否在不同运动和纹理复杂度的视频中提升令牌效用同时保持保真度？
RQ3基于扩散的解码是否能提升重建质量并支持下游潜在扩散视频生成？
RQ4潜在空间对齐和解码器微调是否能实现利用 One-DVA 潜在进行高质量文本到视频和类别到视频生成？
RQ5哪种训练策略（两阶段 vs 端到端）能带来更好的重建保真度和生成就绪性？

主要发现

Method	Iters	rFVD (↓)	PSNR (↑)
CogVideoX	4×8×8	68.17	34.97	0.94	0.033
HunyuanVideo	4×8×8	51.47	35.54	0.94	0.023
Wanx2.1	4×8×8	62.25	34.95	0.94	0.024
Wanx2.2	4×16×16	60.18	35.23	0.94	0.023
Magi1	4×8×8	70.07	36.25	0.95	0.035
Ours	4×16×16	56.96	36.48	0.95	0.025
Ours ( Avg 55.8% 1D )	4×16×16 / 55.8%	70.28	35.42	0.94	0.029
Ours ( Con 55.8% 1D )	4×16×16 / 55.8%	72.42	35.40	0.94	0.029
Ours ( 0% 1D )	/	149.97	32.80	0.91	0.057

One-DVA 在相同压缩比下实现的重建性能可与 3D-CNN VAE 相当。
可变长度的 1D 潜在实现自适应压缩，较长的潜在可捕捉运动丰富区域的更丰富细节。
基于扩散的解码提升了重建质量，并支持用于视频生成的下游潜在扩散模型。
潜在空间对齐和解码器微调在从 LDM 采样潜在生成时能减少伪影。
在消融实验中，两阶段训练在重建保真度方面优于端到端训练。
使用评分机制确定每个视频的 1D 潜在长度，优于固定长度潜在。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。