QUICK REVIEW

[논문 리뷰] Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis

Chuan Li, Michael Wand|arXiv (Cornell University)|2016. 01. 18.

Computer Graphics and Visualization Techniques참고 문헌 22인용 수 68

한 줄 요약

이 논문은 깊이 학습 컨volution 신경망(dCNNs)과 생성적 마르코프 무작위 필드(MRFs)를 결합하여 사진처럼 사실적인 및 비사진적 스타일 전이의 품질을 향상시키는 새로운 이미지 합성 방법을 제안한다. VGG-19의 레이어들인 relu3_1 및 relu4_1와 같은 고수준 dCNN 특징에 MRF 사전 지식을 적용함으로써 국소적 구조 일관성을 강화함으로써, 얼굴 특징이나 물체와 같은 복잡한 중간 척도 구조의 더 현실적인 합성과 함께 잡음과 기계적 오류를 감소시킨다. 이는 표준 dCNN 기반 방법보다도 구조적 정확도에서 뛰어나다.

ABSTRACT

This paper studies a combination of generative Markov random field (MRF) models and discriminatively trained deep convolutional neural networks (dCNNs) for synthesizing 2D images. The generative MRF acts on higher-levels of a dCNN feature pyramid, controling the image layout at an abstract level. We apply the method to both photographic and non-photo-realistic (artwork) synthesis tasks. The MRF regularizer prevents over-excitation artifacts and reduces implausible feature mixtures common to previous dCNN inversion approaches, permitting synthezing photographic content with increased visual plausibility. Unlike standard MRF-based texture synthesis, the combined system can both match and adapt local features with considerable variability, yielding results far out of reach of classic generative MRF methods.

연구 동기 및 목표

약한 공간 제약으로 인해 dCNN 기반 이미지 합성 방법이 환영 또는 현실성 없는 패턴을 생성하는 데서 비롯되는 한계를 해결하기 위해.
생성적 MRF 모델에서 유도된 국소적 구조 사전 지식을 고수준 특징 공간에 통합함으로써 사진처럼 사실적인 스타일 전이를 향상시키기 위해.
사진 스타일과 예술적 스타일을 모두 높은 시각적 현실성과 유지된 중간 척도 구조를 바탕으로 합성할 수 있도록 하기 위해.
dCNN 역전환 접근 방식에서 흔히 발생하는 과도한 자극과 현실성 없는 특징 혼합을 줄이기 위해.
구조화된 이미지 생성을 위한 분류적 깊이 신경망과 생성적 MRF 모델 간의 상호보완적 상호작용을 탐색하기 위해.

제안 방법

콘텐츠 이미지와 스타일 이미지에서 고층의 깊이 특징을 추출하기 위해 VGG-19 네트워크를 사용하며, MRF 모델링을 위해 relu3_1 및 relu4_1 레이어에 집중한다.
고수준 dCNN 특징에 생성적 MRF 모델을 적용하여 합성된 이미지에서 국소 패치 수준의 일관성과 공간적 일관성을 강화한다.
심층 특징 공간 내에서 최근접 이웃 검색을 통해 스타일 이미지와 합성된 이미지 간의 국소 특징 패턴을 일치시킴으로써 MRF 정규화를 시행한다.
콘텐츠 손실(특징 활성화 일치)과 MRF 기반의 구조 손실(패치 수준 유사성)을 동시에 최소화함으로써 합성된 이미지를 최적화한다.
저수준 특징에서 시작하여 고수준 표현으로 점진적으로 개선하는 다중 척도 최적화 전략을 사용한다.
스タイル 이미지에서 의미 있는 국소적 일관성 있는 특징 조합을 재사용하도록 유도하는 패치 기반 MRF 사전 지식을 적용한다.

실험 결과

연구 질문

RQ1MRF 사전 지식을 깊이 학습 컨volution 특징과 융합함으로써 스타일 전이에서 합성된 이미지의 구조적 현실성 향상이 가능한가?
RQ2고수준 dCNN 특징에 MRF 정규화를 적용할 경우, dCNN 기반 이미지 합성에서 흔히 발생하는 과도한 자극과 현실성 없는 특징 혼합이 어떻게 감소하는가?
RQ3MRF-dCNN 하이브리드 방법이 표준 dCNN 기반 스타일 전이(예: Gatys et al.)보다 우월하거나 열등한 경우는 언제인가?
RQ4이 방법은 사진처럼 사실적인 스타일 전이와 예술적 스타일 전이 모두에서 중간 척도 구조(예: 얼굴 특징, 물체 형태)를 어느 정도 유지할 수 있는가?
RQ5전통적인 MRF가 고차원 패치 공간으로 인해 실패하는 복잡하고 반복적이지 않은 스타일에 대해서도 이 방법이 일반화 가능한가?

주요 결과

MRF-dCNN 하이브리드 방법은 Gatys et al.의 방법보다 더 현실적인 구조적 특징을 보이며, 눈, 입, 차량 형태와 같은 중간 척도 구조를 더 잘 유지한다.
MRF 사전 지식에 의해 국소적 특징 일관성이 강화됨으로써 dCNN 역전환에서 흔히 발생하는 환영적 잡음과 기계적 오류를 감소시킨다.
사진처럼 사실적인 스타일 전이에서는 기준 dCNN 방법보다 더 높은 시각적 현실성을 달성하지만, 아직 픽셀 단위로 완벽한 결과는 아니다.
콘텐츠 이미지와 스타일 이미지 사이에 양호한 국소 패치 매칭이 존재할 경우 높은 품질의 결과를 생성하지만, 그렇지 않으면 콘텐츠 특징을 유지하지 못할 수 있다.
강한 투시법이나 형태의 차이가 있는 경우(예: 흰색 개 대비 노란색 개), 이 방법은 콘텐츠 특징을 재현하지 못하지만, Gatys et al.의 방법은 더 잘 적응한다.
이 방법은 변형 가능한 구조(예: 얼굴, 차량)에서는 가장 잘 작동하지만, 대칭적이거나 강성 있는 건축적 구조에서는 구조적 잡음이 발생할 수 있어 어려움을 겪는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.