QUICK REVIEW

[论文解读] Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis

Chuan Li, Michael Wand|arXiv (Cornell University)|Jan 18, 2016

Computer Graphics and Visualization Techniques参考文献 22被引用 68

一句话总结

本文提出了一种新颖的图像合成方法，将深度卷积神经网络（dCNNs）与生成马尔可夫随机场（MRFs）相结合，以提升逼真及非逼真风格迁移的效果。通过在高层dCNN特征（如VGG-19的relu3_1和relu4_1）上应用MRF先验，该方法增强了局部结构一致性，减少了伪影，从而更合理地合成复杂中等尺度结构（如面部特征和物体），在结构保真度方面优于标准dCNN-based方法。

ABSTRACT

This paper studies a combination of generative Markov random field (MRF) models and discriminatively trained deep convolutional neural networks (dCNNs) for synthesizing 2D images. The generative MRF acts on higher-levels of a dCNN feature pyramid, controling the image layout at an abstract level. We apply the method to both photographic and non-photo-realistic (artwork) synthesis tasks. The MRF regularizer prevents over-excitation artifacts and reduces implausible feature mixtures common to previous dCNN inversion approaches, permitting synthezing photographic content with increased visual plausibility. Unlike standard MRF-based texture synthesis, the combined system can both match and adapt local features with considerable variability, yielding results far out of reach of classic generative MRF methods.

研究动机与目标

解决基于dCNN的图像合成方法因空间约束较弱而产生幻觉或不合理的图案的问题。
通过将MRF的局部结构先验引入深度特征空间，改进逼真风格迁移。
实现对照片级和艺术风格的图像合成，具有更高的视觉合理性并保留中等尺度结构。
减少dCNN反演方法中常见的过度激活与不合理的特征混合。
探索判别性深度网络与生成性MRF模型在结构化图像生成中的协同作用。

提出的方法

使用VGG-19网络从内容图像和风格图像中提取分层深度特征，重点聚焦于relu3_1和relu4_1层用于MRF建模。
在高层dCNN特征上应用生成性MRF模型，以在合成图像中强制实现局部块级一致性与空间连贯性。
通过在深度特征空间中进行最近邻搜索，将风格图像与合成图像之间的局部特征模式进行匹配，实现MRF正则化。
通过最小化内容损失（特征激活匹配）与基于MRF的结构损失（块级相似性），优化合成图像。
采用多尺度优化策略，从低层特征开始，逐步通过更高层表示进行细化。
使用基于块的MRF先验，鼓励从风格图像中复用语义上有意义且局部一致的特征构型。

实验结果

研究问题

RQ1将MRF先验与深度卷积特征结合，能否提升风格迁移中合成图像的结构合理性？
RQ2在高层dCNN特征上施加MRF正则化，如何减少基于dCNN的图像合成中常见的过度激活与不合理的特征混合？
RQ3在何种情况下，MRF-dCNN混合方法优于或劣于标准dCNN-based风格迁移方法（如Gatys et al.）？
RQ4该方法在逼真与艺术风格迁移中，能在多大程度上保留中等尺度结构（如面部特征、物体形状）？
RQ5在传统MRF因高维块空间而失效的复杂、非重复性风格中，该方法是否具有泛化能力？

主要发现

MRF-dCNN混合方法生成的图像在结构合理性方面优于Gatys et al.的方法，尤其在保留眼睛、嘴巴和汽车形状等中等尺度结构方面表现更优。
通过MRF先验强制实现局部特征一致性，该方法减少了dCNN反演中常见的幻觉伪影。
在逼真风格迁移中，该方法相比基线dCNN方法实现了更高的视觉合理性，尽管尚未达到像素级完美。
当内容图像与风格图像之间存在良好的局部块匹配时，该方法能生成高质量结果；否则可能无法保留与内容相关的特征。
在存在强烈透视或形状差异的情况下（如白狗与黄狗），该方法难以再现与内容相关的特征，而Gatys et al.的方法适应性更强。
该方法在可变形结构（如人脸、车辆）上表现最佳，但在对称或刚性建筑结构上表现较差，可能引入结构伪影。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。