[논문 리뷰] Unsupervised Person Image Generation with Semantic Parsing Transformation
이 논문은 자세 유도 이미지 합성 과정을 두 단계로 분해하는 비지도(person image) 생성 프레임워크를 제안한다: 의미적 파싱 변환과 외관 생성. 사이클 일致성과 의미 인식 스타일 손실을 통해 이 둘을 엔드 투 엔드로 훈련시킴으로써, 의복 속성의 유지와 신체 형태의 정확성 향상을 달성하며, DeepFashion 및 Market-1501에서 이전의 비지도 방법들보다 뛰어난 성능을 보이며, 특히 속성 유지 및 구조 일致성 측면에서 뛰어나다.
In this paper, we address unsupervised pose-guided person image generation, which is known challenging due to non-rigid deformation. Unlike previous methods learning a rock-hard direct mapping between human bodies, we propose a new pathway to decompose the hard mapping into two more accessible subtasks, namely, semantic parsing transformation and appearance generation. Firstly, a semantic generative network is proposed to transform between semantic parsing maps, in order to simplify the non-rigid deformation learning. Secondly, an appearance generative network learns to synthesize semantic-aware textures. Thirdly, we demonstrate that training our framework in an end-to-end manner further refines the semantic maps and final results accordingly. Our method is generalizable to other semantic-aware person image generation tasks, eg, clothing texture transfer and controlled image manipulation. Experimental results demonstrate the superiority of our method on DeepFashion and Market-1501 datasets, especially in keeping the clothing attributes and better body shapes.
연구 동기 및 목표
- 쌍화된 훈련 데이터 없이도 자세 유도 비지도 인물 이미지 생성 문제를 해결하기 위해.
- 비정적 인간 신체의 변형을 모델링하고 이미지 합성 과정에서 의복 속성을 유지하는 데 어려움을 극복하기 위해.
- 직접적인 이미지 간 매핑의 복잡성을 줄이기 위해 이를 의미적 파싱 변환과 외관 생성으로 분해하기 위해.
- 의복 텍스처 이식 및 제어 가능한 이미지 조작과 같은 후속 작업으로의 일반화를 가능하게 하기 위해.
- 엔드 투 엔드 훈련을 통해 의미 지ap 예측 품질을 향상시켜 파싱 및 최종 이미지 출력을 정교화하기 위해.
제안 방법
- 프레임워크는 인물 이미지 생성을 의미적 파싱 변환 모듈과 외관 생성 모듈로 두 단계로 분해한다.
- 의미적 생성 네트워크는 원천 및 대상 파싱 맵 간에 자세 조건부 변환을 수행하여 비정적 변형 학습을 단순화한다.
- 외관 생성 네트워크는 의미 인식 스타일 손실을 사용하여 변환된 파싱 맵에 사진 수준의 질감을 합성한다.
- 가짜 레이블과 사이클 일치성을 사용하여 쌍화된 감독 없이 의미 생성기를 훈련시킨다.
- 의미 인식 스타일 손실은 질감 매핑이 의미 영역을 존중하도록 보장하여 소매 길이, 원단 무늬 등의 속성을 유지한다.
- 엔드 투 엔드 훈련은 두 모듈을 함께 최적화하여 예측된 의미 지도의 정교화와 이미지 품질 향상을 가능하게 한다.
실험 결과
연구 질문
- RQ1복잡한 이미지 간 매핑을 의미적 파싱 변환과 외관 합성으로 분리함으로써 비지도 인물 이미지 생성 성능을 향상시킬 수 있는가?
- RQ2의미적 파싱 변환은 이미지 생성에서 비정적 인간 신체 변형을 모델링하는 데 얼마나 어려움을 줄일 수 있는가?
- RQ3쌍화된 감독 없이도 엔드 투 엔드 훈련이 의미 지도 예측을 얼마나 정교화하고 최종 이미지 품질을 향상시킬 수 있는가?
- RQ4제안된 프레임워크는 의복 텍스처 이식 및 레이아웃 제어 이미지 조작과 같은 다른 조건부 이미지 생성 작업으로 일반화될 수 있는가?
- RQ5의미 인식 스타일 손실은 외관 생성 과정에서 의복 속성을 유지하는 데 어떤 역할을 하는가?
주요 결과
- 엔드 투 엔드 훈련 전략은 의미 지도 예측을 크게 향상시켜, 두 단계 훈련 대비 더 나은 신체 형태와 의복 속성 유지 효과를 보였다.
- DeepFashion 데이터셋에서 엔드 투 엔드 모델은 진짜 파싱 맵을 사용한 두 단계 기반 모델과 비교해 유사한 성능을 달성했다.
- Market-1501 데이터셋에서 엔드 투 엔드 모델은 진짜 파싱 맵을 사용한 두 단계 기반 모델조차도 초월했으며, 이는 저해상도의 파싱 오류를 더 잘 처리했기 때문이다.
- 의미 인식 스타일 손실은 미세한 의복 속성 유지에 핵심적인 역할을 하며, 이를 마스크 스타일 또는 패치 스타일 손실로 대체할 경우 윤곽선 왜곡과 아티팩트가 발생한다.
- 얼굴 적대적 손실은 생성된 얼굴의 현실감을 효과적으로 향상시켜 전체 시각적 품질을 개선했다.
- 외관 생성기가 의미 지도를 수정함으로써 성공적인 의복 텍스처 이식과 제어 가능한 이미지 조작을 가능하게 하여, 프레임워크의 유연성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.