[论文解读] COIN: COmpression with Implicit Neural representations
COIN 通过对图像进行过拟合一个小型 MLP 并将量化后的 MLP 权重存储为代码来实现图像压缩;解码通过在所有像素位置对 MLP 进行求值来重建图像。它在低比特率下在无熵编码的情况下优于 JPEG。
We propose a new simple approach for image compression: instead of storing the RGB values for each pixel of an image, we store the weights of a neural network overfitted to the image. Specifically, to encode an image, we fit it with an MLP which maps pixel locations to RGB values. We then quantize and store the weights of this MLP as a code for the image. To decode the image, we simply evaluate the MLP at every pixel location. We found that this simple approach outperforms JPEG at low bit-rates, even without entropy coding or learning a distribution over weights. While our framework is not yet competitive with state of the art compression methods, we show that it has various attractive properties which could make it a viable alternative to other neural data compression approaches.
研究动机与目标
- 激发并展示一种将图像压缩视为模型压缩的简单神经数据压缩方法。
- 证明对图像进行小型 MLP 的过拟合并存储其量化权重在低比特率下可能优于 JPEG。
- 探讨隐式神经表示在压缩中的折衷与实际特性。
- 评估该方法是否能与当前最先进的方法竞争,并指出未来改进的方向。
提出的方法
- 将图像表示为函数 f_theta: (x,y) -> RGB,使用带有正弦激活的 MLP(SIREN)以捕捉高频细节。
- 通过最小化 f_theta(x,y) 与 I[x,y] 之间的均方误差(MSE)来对图像进行过拟合。
- 将 MLP 权重 theta 量化并存储为压缩代码,实质上将数据压缩转化为模型压缩。
- 通过在每个像素位置对 f_theta 进行求值来重建图像。
- 可选地探索架构搜索和 16 位权重量化,以在码率与失真之间取得平衡。
- 注:编码对每张图像而言计算密集,但解码简单且可并行化。
实验结果
研究问题
- RQ1在低比特率下,按图像学习的隐式神经表示能否提供与传统编解码器相比有竞争力的速失真性能?
- RQ2架构选择和权重量化如何影响 COIN 的速失真权衡?
- RQ3与传统基于自编码器的神经压缩相比,通过逐图像过拟合网络进行编码有哪些实际优点和局限性?
- RQ4该方法是否可以通过学习的权重分布或元学习来缩小与最先进方法之间的差距?
主要发现
- 在低比特率下,COIN 即使在没有熵编码的情况下也优于 JPEG。
- 将权重从 32 位量化到 16 位在最小失真下保持性能,相比 8 位会降低质量。
- 该方法在解码端实现了非常小的内存(例如在 0.3 bpp 时为 14 kB),相比自编码器基线。
- 编码由于逐图像优化而较慢,但解码快速且高度可并行化。
- 不同的架构在给定比特率预算下具有不同的最优性,表明需要进行架构搜索或剪枝。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。