QUICK REVIEW

[논문 리뷰] RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes

Po-Wei Wu, Yujing Lin|arXiv (Cornell University)|2019. 08. 20.

Generative Adversarial Networks and Image Synthesis참고 문헌 29인용 수 48

한 줄 요약

RelGAN은 다중 도메인 이미지 변환을 위한 상대 속성을 도입하여 모든 속성을 명시하지 않고도 연속적이고 목표 지향적 편집을 가능하게 하며, 이전의 타깃 속성 방법들보다 현실감과 보간 성능이 향상된다.

ABSTRACT

Multi-domain image-to-image translation has gained increasing attention recently. Previous methods take an image and some target attributes as inputs and generate an output image with the desired attributes. However, such methods have two limitations. First, these methods assume binary-valued attributes and thus cannot yield satisfactory results for fine-grained control. Second, these methods require specifying the entire set of target attributes, even if most of the attributes would not be changed. To address these limitations, we propose RelGAN, a new method for multi-domain image-to-image translation. The key idea is to use relative attributes, which describes the desired change on selected attributes. Our method is capable of modifying images by changing particular attributes of interest in a continuous manner while preserving the other attributes. Experimental results demonstrate both the quantitative and qualitative effectiveness of our method on the tasks of facial attribute transfer and interpolation.

연구 동기 및 목표

상대 속성 변화를 사용하여 이진 타깃 속성 기반의 다중 도메인 번역의 한계를 해결한다.
비타깃 속성을 보존하면서 속성 편집에 대한 연속적이고 미세한 제어를 가능하게 한다.
전용 식별자 및 손실 항을 통해 원본과 편집된 이미지 간의 보간 품질을 향상시킨다.
다수의 고품질 데이터셋에서 얼굴 속성 전이, 재구성 및 보간에 대한 효과를 입증한다.

제안 방법

도메인을 n차원 속성 벡터 a로 표현하고, 원하는 변화를 지정하기 위해 상대 속성 v = âˆhat a - a를 정의한다.
단일 생성기 G를 (x, v)에 조건화하고 세 가지 판별기: Real(무조건적 현실성), Match((x, v, x')가 번역과 일치하는지), Interp(보간 정도를 예측하는 것)를 사용한다.
현실성(Real), 조건부 일치(Match)(실제 트리플렛과 잘못된 트리플렛을 사용), 그리고 속성 변화의 부드러움을 제어하는 보간 손실(Interp)을 포함한 적대적 손실로 학습한다.
정체성 및 배경 세부 정보를 보존하기 위해 x와 G(G(x, v), -v) 사이의 사이클 재구성 L1 손실과 v = 0일 때의 자기 재구성 손실을 재구성 규제항으로 부과한다.
G(x, Î±v)의 보간 정도 Î α를 예측하는 보간 판별기를 도입하여 부드럽고 현실적인 전이를 촉진한다.
직교 정규화 항을 채택하고 LSGAN-GP 안정화기로 학습하며, 생성기에서 스위치블 정규화를 사용한다.

실험 결과

연구 질문

RQ1상대 속성이 다중 도메인 이미지 번역에서 이진 타깃 속성에 비해 더 미세하고 연속적인 속성 제어를 제공할 수 있는가?
RQ2모델이 관심 속성만 선택적으로 수정하고 변하지 않는 속성 및 전반적 정체성을 보존하도록 하는 방법은 무엇인가?
RQ3보간 판별기를 추가하면 속성 보간의 품질과 부드러움이 향상되는가?
RQ4다양한 데이터셋에서 RelGAN이 얼굴 속성 전이, 재구성 및 보간에 미치는 실험적 이점은 무엇인가?

주요 결과

RelGAN은 CelebA, CelebA-HQ, FFHQ 설정에서 StarGAN 및 AttGAN보다 낮은 Fréchet Inception Distance(FID)를 달성하여 시각적 품질이 더 높음을 보여준다.
생성된 이미지에 대한 분류 정확도가 여러 속성에서 RelGAN이 가장 높아 번역된 속성의 충실도가 더 우수함을 시사한다.
RelGAN은 이전 방법들보다 변화하지 않는 속성을 더 효과적으로 보존하고 원본과 편집 이미지 간의 보간이 더 매끄럽고 현실적임을 보여준다.
Ablation 연구에서 전체 손실(Real + Match + Cycle/Self + Interp with orthogonal regularization)이 최상의 재구성과 보간 결과를 낳는다.
사용자 연구는 여러 속성 전이 및 재구성 작업에서 RelGAN에 대한 선호도가 높음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.