[论文解读] Learning Continuous Image Representation with Local Implicit Image Function
LIIF 将图像表示为使用局部潜在编码和共享解码器的连续函数,从而实现任意分辨率渲染,并在不重采样真实真值大小的情况下更好地处理大小可变的真值。它支持对非常高的尺度进行外推(最高可达 ×30),并在离散与连续的二维表示之间架起桥梁。
How to represent an image? While the visual world is presented in a continuous manner, machines store and see the images in a discrete way with 2D arrays of pixels. In this paper, we seek to learn a continuous representation for images. Inspired by the recent progress in 3D reconstruction with implicit neural representation, we propose Local Implicit Image Function (LIIF), which takes an image coordinate and the 2D deep features around the coordinate as inputs, predicts the RGB value at a given coordinate as an output. Since the coordinates are continuous, LIIF can be presented in arbitrary resolution. To generate the continuous representation for images, we train an encoder with LIIF representation via a self-supervised task with super-resolution. The learned continuous representation can be presented in arbitrary resolution even extrapolate to x30 higher resolution, where the training tasks are not provided. We further show that LIIF representation builds a bridge between discrete and continuous representation in 2D, it naturally supports the learning tasks with size-varied image ground-truths and significantly outperforms the method with resizing the ground-truths.
研究动机与目标
- 推动将图像表示为连续函数,而非固定分辨率网格。
- 提出使用局部潜在编码和共享解码器的 Local Implicit Image Function (LIIF),用于连续 RGB 预测。
- 证明 LIIF 能实现任意分辨率渲染,并进行超出训练尺度的外推。
- 表明 LIIF 自然处理大小可变的真实值而无需重采样,并相对于对真实值重采样的上采样提升保真度。
提出的方法
- 用分布在图像域中的潜在编码二维特征图 M(i) 表示每个图像。
- 使用一个共享的 MLP 解码器 f_theta,它接收潜在编码 z 和坐标 x 以预测 RGB 值,从而实现 x -> s 的预测。
- 应用特征展开,通过连接相邻潜在向量(3x3 邻域)来丰富局部编码。
- 通过局部集成来减小预测不连续性,将四个相邻潜在编码的预测进行加权组合,权重由面积相关置信度决定。
- 引入单元解码,以根据查询像素大小 c 条件化解码器,从而改进任意分辨率的渲染。
- 端到端训练编码器 E_phi,使用自监督超分辨率任务,其中 LIIF 表示需从下采样输入预测高分辨率真值。
实验结果
研究问题
- RQ1能否使用连续、基于坐标的隐式表示以高保真度重建自然和复杂图像?
- RQ2是否具有共享解码函数加局部潜在编码,能够实现任意高分辨率渲染并超出训练尺度进行外推?
- RQ3LIIF 是否能在不重采样且保持保真度的前提下有效利用大小可变的 ground-truth?
- RQ4哪些设计选择(特征展开、局部集成、单元解码、解码器深度)对性能和泛化影响最大?
- RQ5在分布内/分布外的尺度任务中,LIIF 与固定尺度上采样方法及图像条件隐式模型相比表现如何?
主要发现
- LIIF 在分布内尺度上相对于上采样基线达到有竞争力的 PSNR,在更大、未见过的尺度上优于一些基线。
- LIIF 与局部集成和深解码在分布外的高分辨率尺度(如 ×6 到 ×30)上比某些替代方法具有更好的泛化能力。
- 单元解码在较大尺度下提升了视觉质量,特别是对于未见的高分辨率渲染,尽管 PSNR 效果可能不同。"
- 使用随机连续尺度(×1 到 ×4)的训练使得外推到更高分辨率成为可能(最高可达 ×30),且不需要针对任务的特定真值。
- LIIF 自然处理大小各异的 ground-truth,在 CelebA-HQ 基于的图像到图像任务中,当输入/输出分辨率不同于训练时,优于基于重采样的上采样方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。