QUICK REVIEW

[论文解读] The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Richard Zhang, Phillip Isola|arXiv (Cornell University)|Jan 11, 2018

Advanced Image Processing Techniques参考文献 54被引用 809

一句话总结

来自多种架构和不同监督水平的深度特征在预测人类感知相似性方面远超传统度量，并且可以进行标定以在扭曲和真实算法场景中提高与人类判断的一致性。

ABSTRACT

While it is nearly effortless for humans to quickly assess the perceptual similarity between two images, the underlying processes are thought to be quite complex. Despite this, the most widely used perceptual metrics today, such as PSNR and SSIM, are simple, shallow functions, and fail to account for many nuances of human perception. Recently, the deep learning community has found that features of the VGG network trained on ImageNet classification has been remarkably useful as a training loss for image synthesis. But how perceptual are these so-called "perceptual losses"? What elements are critical for their success? To answer these questions, we introduce a new dataset of human perceptual similarity judgments. We systematically evaluate deep features across different architectures and tasks and compare them with classic metrics. We find that deep features outperform all previous metrics by large margins on our dataset. More surprisingly, this result is not restricted to ImageNet-trained VGG features, but holds across different deep architectures and levels of supervision (supervised, self-supervised, or even unsupervised). Our results suggest that perceptual similarity is an emergent property shared across deep visual representations.

研究动机与目标

激励并量化深度特征表示与人类感知相似性判断的对齐程度。
创建一个大规模、多样化的感知相似性数据集（BAPPS），以在扭曲和真实算法上评估度量。
评估来自有监督、自监督和无监督模型的深度特征，并测试这些特征的标定。
评估架构还是训练信号（不仅仅是 ImageNet）驱动感知对齐。
探讨对预训练特征的线性标定是否足以改进感知距离测量。

提出的方法

引入带有 64x64 块的 2AFC 与 JND 判定的 Berkeley-Adobe Perceptual Patch Similarity (BAPPS) 数据集。
通过对通道激活进行归一化、应用逐层通道权重并在时空与层之间聚合，来在深度特征空间中计算补丁之间的距离（LPIPS 框架）。
评估多种架构（SqueezeNet、AlexNet、VGG）和监督信号（有监督、自监督、无监督）。
探索 LPIPS 的三种训练配置：lin（对固定特征进行线性标定）、tune（从预训练权重进行微调）、scratch（从随机初始化开始训练）。
在传统扭曲、基于 CNN 的扭曲以及真实算法输出（超分辨、帧内插、视频去模糊、上色）上进行测试。
训练一个小预测器 G 将距离映射到感知判断，以检验距离对是否能预测判断。

实验结果

研究问题

RQ1在分类预训练（甚至自监督/无监督）下，深度特征是否在扭曲情况下与人类感知相似性对齐？
RQ2网络架构还是训练信号主要决定感知对齐，简单的标定是否能改善与人类判断的相关性？
RQ3学得的感知距离是否能从扭曲泛化到真实世界算法输出，以及不同的感知测试（2AFC 和 JND）？
RQ4对预训练网络的线性标定是否足以改善感知距离，还是需要完全微调？
RQ5在不同扭曲下，深度特征感知度量与传统的 FR-IQA 度量（如 SSIM、FSIM）相比如何？

主要发现

在大规模、多样化的数据集上，深度特征在人类判断上远超传统感知度量。
人类与所评估的度量的一致性约为 73.9%，而有监督网络约为 67–69%，传统度量约为 63%，较低。
在架构（SqueezeNet、AlexNet、VGG）和监督类型（有监督、自监督、无监督）之间，深度特征在不进行额外校准的情况下就能产生强感知距离。
对预训练网络的线性标定（LPIPS lin）相较于固定特征提高了性能，进一步微调（LPIPS tune）在所测试的配置中得到最佳结果；从头训练（LPIPS scratch）通常不如标定。
对感知判断的标定可迁移到真实算法输出，在三个网络和四个真实算法任务中有 11/12 的情况提高了性能。
感知相似性似乎是为语义预测或其他自然任务而训练的表征的涌现属性，自监督和无监督表示与有监督表示相比表现相当。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。