QUICK REVIEW

[논문 리뷰] Generative Visual Manipulation on the Natural Image Manifold

Jun-Yan Zhu, Philipp Krähenbühl|arXiv (Cornell University)|2016. 09. 12.

Advanced Vision and Imaging참고 문헌 42인용 수 121

한 줄 요약

이 논문은 GAN으로 자연 이미지 매니폴드를 학습하고 이를 제약으로 사용하여 실시간으로 사진처럼 보이는 이미지 편집을 수행하고 실제 사진에 편집을 전이한다. 이는 형상/색상 편집, 생성적 변환, 낙서에서의 이미지 생성을 가능하게 한다.

ABSTRACT

Realistic image manipulation is challenging because it requires modifying the image appearance in a user-controlled way, while preserving the realism of the result. Unless the user has considerable artistic skill, it is easy to "fall off" the manifold of natural images while editing. In this paper, we propose to learn the natural image manifold directly from data using a generative adversarial neural network. We then define a class of image editing operations, and constrain their output to lie on that learned manifold at all times. The model automatically adjusts the output keeping all edits as realistic as possible. All our manipulations are expressed in terms of constrained optimization and are applied in near-real time. We evaluate our algorithm on the task of realistic photo manipulation of shape and color. The presented method can further be used for changing one image to look like the other, as well as generating novel imagery from scratch based on user's scribbles.

연구 동기 및 목표

사용자 제어 가능한, 자연 이미지 매니폴드 위에 남아 있는 사진처럼 사실적인 이미지 편집을 가능하게 하려는 동기 부여와 촉진
GAN을 사용해 데이터를 통해 이미지 매니폴드를 학습하고 편집이 이 매니폴드에 남아 있도록 제약을 가함
실시간 그라디언트 기반 편집 연산(색상, 형상, 왜곡)과 원본 사진으로의 신뢰할 수 있는 편집 전이 제공
학습된 매니폴드 내에서 낙서로부터 새로운 이미지를 생성하고 이미지 간 형태 변형 가능

제안 방법

자연 이미지 매니폴드를 M~ = {G(z)}로 근사하도록 GAN을 학습하고 유클리드 잠재 거리(L2 거리)를 인지적 유사성 대리자로 사용
실제 이미지를 GAN 매니폴드에 투사하기 위해 가장 가까운 잠재 z를 최적화나 학습된 인코더 P(x; θP)로 찾음
사용자 제약을 유지하면서 z0에 가깝고 매니폴드 위에 남도록 하는 제약 최적화(방정식 5)를 통해 잠재 공간에서 편집
가 Dense 모션+컬러 플로우(방정식 6)와 가이드 업샘플링을 사용하여 원본 고해상도 이미지로의 편집 전이
브러시 기반 채색, 스케치(HOG 특징), 왜곡 제약(방정식 5)을 갖춘 대화형 UI 제공
세 가지 응용: 기존 사진의 사실적 조작, 이미지 간 생성적 변환, 낙서에서의 대화형 이미지 생성

실험 결과

연구 질문

RQ1GAN이 학습한 자연 이미지 매니폴드가 이미지 편집에 있어 안전하고 제어 가능한 제약으로 작용할 수 있는가?
RQ2사용자 편집을 매니폴드 위에 남아 있고 원본 이미지에 가까운 출력으로 만들기 위한 제약으로 표현하는 방법은 무엇인가?
RQ3실제 사진을 GAN 매니폴드에 투사하고 편집을 원본 이미지로 역전파하는 방법의 효과는 무엇인가?
RQ4생성된 이미지에서 원본 사진으로의 편집 전이가 밀도 기반 대응 기법을 사용해 높은 충실도로 가능할까?
RQ5다양한 편집 제약(색칠, 스케치, 왜곡)이 현실적인 결과를 내는 데 어떤 차이가 있는가?

주요 결과

하이브리드 프로젝션(학습된 인코더와 최적화)의 재구성 성능은 최적화나 인코더 단독보다 우수하다.
데이터셋별 재구성 오차에서 하이브리드 방식이 최적화 기반 및 네트워크 기반 프로젝션을 꾸준히 상회한다(Shoes/Church Outdoor/Outdoor Natural/Handbags/Shirts)
편집 업데이트는 50–100 ms로 실시간에 가까운 인터랙티브 피드백을 가능하게 하며, 고해상도에의 최종 편집 전이는 5–10초 걸림
GAN 매니폴드로 제약된 사용자 편집이 일반 GAN 출력보다 더 사실적 결과를 낳고, 형태+색상 편집이 사용자의 지각적 현실감을 더 높게 만든다(사용자 연구에서)
이 방법은 세 가지 기능을 가능하게 한다: 기존 사진의 사실적 편집, 이미지 간 생성적 변환, 낙서로부터의 이미지 생성
모션+컬러 플로우 기반의 편집 전이는 원본 이미지에 편집을 적용할 때 인공물을 줄이고, 가이드 필터링으로 고해상도 결과를 얻을 수 있다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.