[论文解读] Text + Sketch: Image Compression at Ultra Low Rates
论文使用带有文本变换编码(PIC)的预训练文本到图像模型,并在此基础上增加草图作为辅助信息(PICS),在超低比特率下实现语义上忠实的图像重建,而无需端到端训练。
Recent advances in text-to-image generative models provide the ability to generate high-quality images from short text descriptions. These foundation models, when pre-trained on billion-scale datasets, are effective for various downstream tasks with little or no further training. A natural question to ask is how such models may be adapted for image compression. We investigate several techniques in which the pre-trained models can be directly used to implement compression schemes targeting novel low rate regimes. We show how text descriptions can be used in conjunction with side information to generate high-fidelity reconstructions that preserve both semantics and spatial structure of the original. We demonstrate that at very low bit-rates, our method can significantly improve upon learned compressors in terms of perceptual and semantic fidelity, despite no end-to-end training.
研究动机与目标
- 通过利用大规模文本到图像模型,推动并实现超低速率的图像压缩。
- 证明传输文本描述加上最小的辅助信息可保留图像的语义和结构。
- 证明在极低比特率下,增加草图作为辅助信息可提升结构保真度。
- 强调这些方法不需要端到端训练,并在语义/感知指标上优于某些 state-of-the-art 生成压缩方法。
提出的方法
- 使用预训练的文本到图像模型(Stable Diffusion)从通过提示反演在 CLIP 空间获得的无损压缩文本提示重构图像(PIC)。
- 再传输一个使用学习的非线性变换编码器(NTC)压缩的额外空间条件图(草图),以引导解码器(ControlNet)并保持空间结构(PICS)。
- 在标准数据集上将 PIC 和 PICS 与 HiFiC 及一个在 MS-SSIM 上调优的 NTC 基线进行比较(Kodak、CLIC 2021、DIV2K)。
- 使用基于 CLIP 的语义相似性作为感知/语义质量的代理,并辅以无参考指标 FID 和 KID 的评估。
- 表明 PIC 在非常低的码率 (~0.002-0.003 bpp) 运行,而 PICS 在感知与码率-失真权衡上有改进。
实验结果
研究问题
- RQ1极低速率图像压缩是否可以通过现成的文本到图像模型实现对语义内容的保留?
- RQ2在极低比特率下,增加一个空间条件草图作为辅助信息是否能提升重建的结构保真度?
- RQ3在极低比特率下,PIC 和 PICS 与最先进的生成压缩器在语义和感知质量方面的比较如何?
- RQ4在这一范畴内,是否需要端到端训练以达到具有竞争力的效果?
主要发现
- PIC 在约 0.002-0.003 bpp 的极低码率下仍保留语义信息。
- PICS(文本+草图)在超低速率区间相比 PIC 和 HiFiC 提供更好的码率-感知和码率-失真权衡。
- PIC 保留粗粒度的语义概念,而 PICS 通过将草图编码为辅助信息来提升结构保真度。
- NTC 基线在超低码率下较为模糊,而 HiFiC 提高了真实感但在风格/纹理上可能与原始图像不同。
- PICS 能在高层空间结构上实现更出色的清晰度重建,尽管纹理/颜色可能与原图不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。