QUICK REVIEW

[논문 리뷰] Generating Images with Perceptual Similarity Metrics based on Deep Networks

Alexey Dosovitskiy, Thomas Brox|arXiv (Cornell University)|2016. 02. 08.

Generative Adversarial Networks and Image Synthesis인용 수 388

한 줄 요약

논문은 DeePSiM을 소개한다, 심층 특징 공간에서의 유사성 측정에 더해 적대적 및 이미지 공간 항을 포함하는 손실 함수 계열로 선명하고 지각적으로 현실적인 이미지를 생성한다. 이 손실을 오토인코더, VAE, 그리고 AlexNet 표현의 역전(inversion)에 적용한다.

ABSTRACT

Image-generating machine learning models are typically trained with loss functions based on distance in the image space. This often leads to over-smoothed results. We propose a class of loss functions, which we call deep perceptual similarity metrics (DeePSiM), that mitigate this problem. Instead of computing distances in the image space, we compute distances between image features extracted by deep neural networks. This metric better reflects perceptually similarity of images and thus leads to better results. We show three applications: autoencoder training, a modification of a variational autoencoder, and inversion of deep convolutional networks. In all cases, the generated images look sharp and resemble natural images.

연구 동기 및 목표

지각적으로 충실한 이미지 생성을 위한 필요성을 픽셀 단위 손실이 만들어내는 흐림을 넘어 동기화한다.
특징 공간, 적대적(prior) 및 픽셀 공간 항을 결합하는 손실 클래스(DeePSiM)를 제안한다.
자동 인코더 학습, VAE 변형, 그리고 깊은 시각 표현의 역전이라는 세 가지 실용적 응용을 보여준다.
DeePSiM이 전통적 손실과 비교해 더 선명하고 자연스러운 재구성과 미세한 구조를 보존함을 입증한다.

제안 방법

DeePSiM 손실을 L = lambda_feat * L_feat + lambda_adv * L_adv + lambda_img * L_img 로 정의한다.
L_feat는 특징 간 거리를 측정한다: L_feat = sum_i ||C(G_theta(x_i)) - C(y_i)||_2^2 를 비교자 C(예: AlexNet 계층 또는 Exemplar-CNN)를 사용하여.
L_adv는 판별자 D_phi를 이용해 GAN 스타일의 적대적 학습으로 자연스러운 이미지 사전 정보를 강제한다: L_discr = -sum_i log D_phi(y_i) + log(1 - D_phi(G_theta(x_i))); L_adv = - sum_i log D_phi(G_theta(x_i)).
L_img은 이미지 공간 페널티이다: L_img = sum_i ||G_theta(x_i) - y_i||_2^2.
아키텍처에는 업-컨볼루션 계층을 가진 생성기, 데이터 처리를 위한 세 네트워크(G, D_phi, C)가 포함된다.
학습은 Adam을 사용하고, 판별자와 적대적 손실의 균형을 맞추는 전략으로 적대적 학습의 안정화를 도모한다.

실험 결과

연구 질문

RQ1깊은 특징 공간의 손실이 픽셀 공간의 손실보다 이미지 생성에서 지각적 유사성을 더 잘 포착하는가?
RQ2특징 손실과 적대적 사전 정보를 결합하면 생성 이미지의 현실감과 충실도에 어떤 영향을 미치는가?
RQ3DeePSiM 손실이 오토인코더, VAE, 심층 표현의 역전에서 재구성 품질을 개선하는가?
RQ4다양한 작업에 대해 어떤 비교자(특징 공간)가 성능을 최적화하는가?
RQ5딥 네트워크를 역전할 때 서로 다른 계층에서 지각적 충실성이 유지되는가?

주요 결과

DeePSiM 기반의 오토인코더가 SE 또는 L1 손실보다 더 선명하고 질감이 풍부한 재구성을 생성하며 미세한 구조를 보존한다.
DeePSiM으로 학습된 VAE는 표준 픽셀 공간 손실보다 더 현실적인 통계를 가진 이미지를 생성한다.
DeePSiM을 사용한 AlexNet 표현의 역전은 매우 자연스러운 재구성을 낳고, 지각적 세부를 보존하는 면에서 기존의 역전 방법을 능가한다.
특징 공간 손실과 함께 판별기 기반의 적대적 사전 정보를 사용하면 과도하게 흐릿하거나 혼란스러운 재구성을 피하고 더 현실적인 이미지를 얻는다.
다양한 특징 공간(예: AlexNet conv5, fc6, VideoNet)이 비교자 역할로 효과적일 수 있으며, 보통 AlexNet conv5가 최상의 결과를 제공하지만 다른 비교자도 주요 이미지 특징을 포착한다.
특징 손실, 적대적 손실, 및 이미지 공간 손실의 조합이 구성 요소 중 하나를 생략한 구성보다 우월하며, 최상의 성능을 위해 세 가지 항 모두의 필요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.