Skip to main content
QUICK REVIEW

[论文解读] Towards Metamerism via Foveated Style Transfer

Arturo Deza, Aditya Jonnalagadda|arXiv (Cornell University)|Jan 1, 2017
Generative Adversarial Networks and Image Synthesis被引用 8
一句话总结

本文提出 NeuroFovea,一种聚焦视觉处理的生成模型,通过基于 VGG19 的编码器-解码器与自适应实例归一化,生成在人类视觉下无法区分的异构像(metamers)——即人类眼中看起来完全相同但物理上不同的图像。该模型利用聚焦视觉处理与抗噪优化方案,使异构像生成速度达到先前方法的 1000 倍以上,实现每样本约 1 秒的可 tractable、数据驱动的异构像实验。

ABSTRACT

The problem of $ extit{visual metamerism}$ is defined as finding a family of perceptually indistinguishable, yet physically different images. In this paper, we propose our NeuroFovea metamer model, a foveated generative model that is based on a mixture of peripheral representations and style transfer forward-pass algorithms. Our gradient-descent free model is parametrized by a foveated VGG19 encoder-decoder which allows us to encode images in high dimensional space and interpolate between the content and texture information with adaptive instance normalization anywhere in the visual field. Our contributions include: 1) A framework for computing metamers that resembles a noisy communication system via a foveated feed-forward encoder-decoder network -- We observe that metamerism arises as a byproduct of noisy perturbations that partially lie in the perceptual null space; 2) A perceptual optimization scheme as a solution to the hyperparametric nature of our metamer model that requires tuning of the image-texture tradeoff coefficients everywhere in the visual field which are a consequence of internal noise; 3) An ABX psychophysical evaluation of our metamers where we also find that the rate of growth of the receptive fields in our model match V1 for reference metamers and V2 between synthesized samples. Our model also renders metamers at roughly a second, presenting a $ imes1000$ speed-up compared to the previous work, which allows for tractable data-driven metamer experiments.

研究动机与目标

  • 开发一种快速、可微分的框架,通过利用聚焦视觉处理,生成视觉异构像——即在感知上完全相同但物理上不同的图像。
  • 通过感知优化方案,解决图像-纹理权衡系数在视觉场中各区域的超参数敏感性问题。
  • 将异构现象建模为感知零空间中噪声的副产品,模拟一个存在噪声的通信系统。
  • 通过将生成异构像的受体场增长与人类视觉区域 V1 和 V2 对齐,验证其生物合理性。
  • 通过将每样本生成时间从数小时缩短至 1 秒以内,实现可扩展、数据驱动的异构像实验。

提出的方法

  • 该模型采用聚焦视觉处理的 VGG19 编码器-解码器架构,对图像进行变分辨率处理,使中央凹区域保持高细节,周边区域则降低分辨率。
  • 通过自适应实例归一化(AdaIN)在视觉场范围内插值内容与纹理特征,实现对图像-纹理权衡的控制。
  • 通过无梯度下降的前向传播生成异构像,避免昂贵的优化循环,实现实时推理。
  • 感知优化方案用于调节视觉场中各区域的图像-纹理权衡系数,以补偿内部噪声与超参数敏感性。
  • 通过分析模型的受体场,将其增长速率与人类 V1 和 V2 进行比较,并利用 ABX 心理物理评估验证感知相似性。
  • 在感知零空间中引入噪声扰动,使异构像作为聚焦表征学习的副产品自然涌现。

实验结果

研究问题

  • RQ1能否通过聚焦、前馈神经网络在无需梯度下降的情况下生成感知上无法区分的异构像?
  • RQ2感知零空间中噪声的分布如何导致异构图像对的产生?
  • RQ3该模型中的受体场增长模式在多大程度上与人类视觉区域 V1 和 V2 相匹配?
  • RQ4感知优化方案是否能有效调节受体场中各区域的图像-纹理权衡,即使存在内部噪声?
  • RQ5与先前的异构像生成方法相比,该模型在计算效率上获得了多大提升?

主要发现

  • NeuroFovea 模型每样本生成异构像耗时约 1 秒,相比先前基于梯度的方法实现了约 1000 倍的速度提升。
  • 该模型生成的异构像表现出与人类 V1(参考异构像)和 V2(合成样本)中观察到的受体场增长速率高度一致。
  • 感知优化方案成功通过调节视觉场中各区域的图像-纹理权衡系数,缓解了超参数敏感性问题。
  • 该模型的聚焦架构能够实现内容与纹理特征的高维编码与插值,且通过自适应实例归一化实现。
  • ABX 心理物理评估证实,生成的异构像在感知上无法区分,验证了该模型在模拟人类视觉感知方面的有效性。
  • 异构现象自然地作为位于聚焦表征感知零空间内的噪声扰动的副产品而涌现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。