[论文解读] Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models
该论文将视觉信号表示为隐式函数,通过对冻结扩散基础模型进行单向量 LoRA 适配,实现紧凑的视觉压缩(如 81 帧视频),在感知质量和推理时控制方面表现出色。
Modern visual generative models acquire rich visual knowledge through large-scale training, yet existing visual representations (such as pixels, latents, or tokens) remain external to the model and cannot directly exploit this knowledge for compact storage or reuse. In this work, we introduce a new visual representation framework that encodes a signal as a function, which is parametrized by low-rank adaptations attached to a frozen visual generative model. Such implicit representations of visual signals, extit{e.g.}, an 81-frame video, can further be hashed into a single compact vector, achieving strong perceptual video compression at extremely low bitrates. Beyond basic compression, the functional nature of this representation enables inference-time scaling and control, allowing additional refinement on the compression performance. More broadly, as the implicit representations directly act as a function of the generation process, this suggests a unified framework bridging visual compression and generation.
研究动机与目标
- 设计并开发一个框架,将视觉信号编码为描述其生成过程的函数。
- 利用预训练的扩散基础模型作为先验,以实现紧凑且高质量的表示。
- 证明单个自适应向量能够有效压缩复杂信号(如视频)。
- 通过函数表示在推理时实现对重建的控制与 refinement。
提出的方法
- 将信号表示为在冻结扩散模型条件下基于一个描述性字幕的函数。
- 通过流动匹配目标学习一个随时间变化的向量场 v_theta,以从噪声生成 x。
- 使用低秩更新的 LoRA 将函数压缩为单向量自适应。
- 对自适应进行哈希与量化,形成紧凑向量 v,并在训练中考虑信息熵。
- 通过采样多条轨迹并使用共享的 PRNG 进行选择来提供推理时的尺度调整。
- 基于 KL 的 MDL 理由,最优自适应对预训练过程的偏离应尽可能小。
实验结果
研究问题
- RQ1一个视觉信号是否可以被有效表示为由扩散基础模型生成的函数?
- RQ2如何在不牺牲感知质量的前提下,将该函数压缩为高度紧凑的自适应向量?
- RQ3在严格比特率约束下,推理时尺度调整是否能改善重建质量?
- RQ4隐式表示是否支持记忆性持久性与受控生成以用于编辑或合并任务?
主要发现
- 通过单向量 LoRA 适配的隐式表示在 UVG 与 HEVC 数据集等视频基准上实现了强感知压缩。
- 每步多样本的推理时尺度可在边际比特率成本下带来显著的感知增益。
- 单个哈希向量可以编码一个 81 帧视频的内容,并通过冻结的扩散模型实现重建。
- 在低比特率条件下,该方法提供时间上连贯的重建,并在视觉保真度方面优于基线。
- 这些自适应充当持久的视觉记忆,允许通过文本提示进行编辑或合并,而无需重新训练基础模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。