Skip to main content
QUICK REVIEW

[论文解读] Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis

Chuan Li, Michael Wand|arXiv (Cornell University)|Jan 18, 2016
Computer Graphics and Visualization Techniques参考文献 22被引用 68
一句话总结

本文提出了一种新颖的图像合成方法,将深度卷积神经网络(dCNNs)与生成马尔可夫随机场(MRFs)相结合,以提升逼真及非逼真风格迁移的效果。通过在高层dCNN特征(如VGG-19的relu3_1和relu4_1)上应用MRF先验,该方法增强了局部结构一致性,减少了伪影,从而更合理地合成复杂中等尺度结构(如面部特征和物体),在结构保真度方面优于标准dCNN-based方法。

ABSTRACT

This paper studies a combination of generative Markov random field (MRF) models and discriminatively trained deep convolutional neural networks (dCNNs) for synthesizing 2D images. The generative MRF acts on higher-levels of a dCNN feature pyramid, controling the image layout at an abstract level. We apply the method to both photographic and non-photo-realistic (artwork) synthesis tasks. The MRF regularizer prevents over-excitation artifacts and reduces implausible feature mixtures common to previous dCNN inversion approaches, permitting synthezing photographic content with increased visual plausibility. Unlike standard MRF-based texture synthesis, the combined system can both match and adapt local features with considerable variability, yielding results far out of reach of classic generative MRF methods.

研究动机与目标

  • 解决基于dCNN的图像合成方法因空间约束较弱而产生幻觉或不合理的图案的问题。
  • 通过将MRF的局部结构先验引入深度特征空间,改进逼真风格迁移。
  • 实现对照片级和艺术风格的图像合成,具有更高的视觉合理性并保留中等尺度结构。
  • 减少dCNN反演方法中常见的过度激活与不合理的特征混合。
  • 探索判别性深度网络与生成性MRF模型在结构化图像生成中的协同作用。

提出的方法

  • 使用VGG-19网络从内容图像和风格图像中提取分层深度特征,重点聚焦于relu3_1和relu4_1层用于MRF建模。
  • 在高层dCNN特征上应用生成性MRF模型,以在合成图像中强制实现局部块级一致性与空间连贯性。
  • 通过在深度特征空间中进行最近邻搜索,将风格图像与合成图像之间的局部特征模式进行匹配,实现MRF正则化。
  • 通过最小化内容损失(特征激活匹配)与基于MRF的结构损失(块级相似性),优化合成图像。
  • 采用多尺度优化策略,从低层特征开始,逐步通过更高层表示进行细化。
  • 使用基于块的MRF先验,鼓励从风格图像中复用语义上有意义且局部一致的特征构型。

实验结果

研究问题

  • RQ1将MRF先验与深度卷积特征结合,能否提升风格迁移中合成图像的结构合理性?
  • RQ2在高层dCNN特征上施加MRF正则化,如何减少基于dCNN的图像合成中常见的过度激活与不合理的特征混合?
  • RQ3在何种情况下,MRF-dCNN混合方法优于或劣于标准dCNN-based风格迁移方法(如Gatys et al.)?
  • RQ4该方法在逼真与艺术风格迁移中,能在多大程度上保留中等尺度结构(如面部特征、物体形状)?
  • RQ5在传统MRF因高维块空间而失效的复杂、非重复性风格中,该方法是否具有泛化能力?

主要发现

  • MRF-dCNN混合方法生成的图像在结构合理性方面优于Gatys et al.的方法,尤其在保留眼睛、嘴巴和汽车形状等中等尺度结构方面表现更优。
  • 通过MRF先验强制实现局部特征一致性,该方法减少了dCNN反演中常见的幻觉伪影。
  • 在逼真风格迁移中,该方法相比基线dCNN方法实现了更高的视觉合理性,尽管尚未达到像素级完美。
  • 当内容图像与风格图像之间存在良好的局部块匹配时,该方法能生成高质量结果;否则可能无法保留与内容相关的特征。
  • 在存在强烈透视或形状差异的情况下(如白狗与黄狗),该方法难以再现与内容相关的特征,而Gatys et al.的方法适应性更强。
  • 该方法在可变形结构(如人脸、车辆)上表现最佳,但在对称或刚性建筑结构上表现较差,可能引入结构伪影。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。