QUICK REVIEW

[논문 리뷰] Unsupervised Person Image Generation with Semantic Parsing Transformation

Sijie Song, Wei Zhang|arXiv (Cornell University)|2019. 04. 06.

Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 17

한 줄 요약

이 논문은 자세 유도 이미지 합성 과정을 두 단계로 분해하는 비지도(person image) 생성 프레임워크를 제안한다: 의미적 파싱 변환과 외관 생성. 사이클 일致성과 의미 인식 스타일 손실을 통해 이 둘을 엔드 투 엔드로 훈련시킴으로써, 의복 속성의 유지와 신체 형태의 정확성 향상을 달성하며, DeepFashion 및 Market-1501에서 이전의 비지도 방법들보다 뛰어난 성능을 보이며, 특히 속성 유지 및 구조 일致성 측면에서 뛰어나다.

ABSTRACT

In this paper, we address unsupervised pose-guided person image generation, which is known challenging due to non-rigid deformation. Unlike previous methods learning a rock-hard direct mapping between human bodies, we propose a new pathway to decompose the hard mapping into two more accessible subtasks, namely, semantic parsing transformation and appearance generation. Firstly, a semantic generative network is proposed to transform between semantic parsing maps, in order to simplify the non-rigid deformation learning. Secondly, an appearance generative network learns to synthesize semantic-aware textures. Thirdly, we demonstrate that training our framework in an end-to-end manner further refines the semantic maps and final results accordingly. Our method is generalizable to other semantic-aware person image generation tasks, eg, clothing texture transfer and controlled image manipulation. Experimental results demonstrate the superiority of our method on DeepFashion and Market-1501 datasets, especially in keeping the clothing attributes and better body shapes.

연구 동기 및 목표

쌍화된 훈련 데이터 없이도 자세 유도 비지도 인물 이미지 생성 문제를 해결하기 위해.
비정적 인간 신체의 변형을 모델링하고 이미지 합성 과정에서 의복 속성을 유지하는 데 어려움을 극복하기 위해.
직접적인 이미지 간 매핑의 복잡성을 줄이기 위해 이를 의미적 파싱 변환과 외관 생성으로 분해하기 위해.
의복 텍스처 이식 및 제어 가능한 이미지 조작과 같은 후속 작업으로의 일반화를 가능하게 하기 위해.
엔드 투 엔드 훈련을 통해 의미 지ap 예측 품질을 향상시켜 파싱 및 최종 이미지 출력을 정교화하기 위해.

제안 방법

프레임워크는 인물 이미지 생성을 의미적 파싱 변환 모듈과 외관 생성 모듈로 두 단계로 분해한다.
의미적 생성 네트워크는 원천 및 대상 파싱 맵 간에 자세 조건부 변환을 수행하여 비정적 변형 학습을 단순화한다.
외관 생성 네트워크는 의미 인식 스타일 손실을 사용하여 변환된 파싱 맵에 사진 수준의 질감을 합성한다.
가짜 레이블과 사이클 일치성을 사용하여 쌍화된 감독 없이 의미 생성기를 훈련시킨다.
의미 인식 스타일 손실은 질감 매핑이 의미 영역을 존중하도록 보장하여 소매 길이, 원단 무늬 등의 속성을 유지한다.
엔드 투 엔드 훈련은 두 모듈을 함께 최적화하여 예측된 의미 지도의 정교화와 이미지 품질 향상을 가능하게 한다.

실험 결과

연구 질문

RQ1복잡한 이미지 간 매핑을 의미적 파싱 변환과 외관 합성으로 분리함으로써 비지도 인물 이미지 생성 성능을 향상시킬 수 있는가?
RQ2의미적 파싱 변환은 이미지 생성에서 비정적 인간 신체 변형을 모델링하는 데 얼마나 어려움을 줄일 수 있는가?
RQ3쌍화된 감독 없이도 엔드 투 엔드 훈련이 의미 지도 예측을 얼마나 정교화하고 최종 이미지 품질을 향상시킬 수 있는가?
RQ4제안된 프레임워크는 의복 텍스처 이식 및 레이아웃 제어 이미지 조작과 같은 다른 조건부 이미지 생성 작업으로 일반화될 수 있는가?
RQ5의미 인식 스타일 손실은 외관 생성 과정에서 의복 속성을 유지하는 데 어떤 역할을 하는가?

주요 결과

엔드 투 엔드 훈련 전략은 의미 지도 예측을 크게 향상시켜, 두 단계 훈련 대비 더 나은 신체 형태와 의복 속성 유지 효과를 보였다.
DeepFashion 데이터셋에서 엔드 투 엔드 모델은 진짜 파싱 맵을 사용한 두 단계 기반 모델과 비교해 유사한 성능을 달성했다.
Market-1501 데이터셋에서 엔드 투 엔드 모델은 진짜 파싱 맵을 사용한 두 단계 기반 모델조차도 초월했으며, 이는 저해상도의 파싱 오류를 더 잘 처리했기 때문이다.
의미 인식 스타일 손실은 미세한 의복 속성 유지에 핵심적인 역할을 하며, 이를 마스크 스타일 또는 패치 스타일 손실로 대체할 경우 윤곽선 왜곡과 아티팩트가 발생한다.
얼굴 적대적 손실은 생성된 얼굴의 현실감을 효과적으로 향상시켜 전체 시각적 품질을 개선했다.
외관 생성기가 의미 지도를 수정함으로써 성공적인 의복 텍스처 이식과 제어 가능한 이미지 조작을 가능하게 하여, 프레임워크의 유연성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.