QUICK REVIEW

[논문 리뷰] Pose Guided Person Image Generation

Liqian Ma, Xu Jia|arXiv (Cornell University)|2017. 05. 25.

Generative Adversarial Networks and Image Synthesis참고 문헌 24인용 수 137

한 줄 요약

이 논문은 참조 이미지와 대상 자세로 사람 이미지 생성을 조건화하는 두 단계 프레임워크 PG 2를 소개하며, 고품질의 자세 일치 결과를 생성합니다.

ABSTRACT

This paper proposes the novel Pose Guided Person Generation Network (PG$^2$) that allows to synthesize person images in arbitrary poses, based on an image of that person and a novel pose. Our generation framework PG$^2$ utilizes the pose information explicitly and consists of two key stages: pose integration and image refinement. In the first stage the condition image and the target pose are fed into a U-Net-like network to generate an initial but coarse image of the person with the target pose. The second stage then refines the initial and blurry result by training a U-Net-like generator in an adversarial way. Extensive experimental results on both 128$ imes$64 re-identification images and 256$ imes$256 fashion photos show that our model generates high-quality person images with convincing details.

연구 동기 및 목표

모양(참조 이미지)와 자세(keypoints) 모두에 조건화된 제어 가능한 이미지 생성을 목표로 한다.
전신 구조의 글로벌 학습과 디테일 학습을 서로 분리하도록 두 단계 아키텍처를 개발한다.
합성 중 배경 인공물을 줄이기 위한 자세 임베딩과 자세 중심 손실을 제안한다.
저해상도 재식별 및 고해상도 패션 데이터셋에서의 효과를 입증한다.

제안 방법

두 단계 네트워크를 사용한다(Stage I: U-Net 유사 제너레이터를 이용한 자세 통합으로 거친 타깃 생성; Stage II: 조건 DCGAN으로 디테일 보강).
타깃 자세를 18개의 히트맵으로 표현하고 Stage I 입력으로 조건 이미지와 연결(concatenate)한다.
Stage I에서 L1 손실을 계산할 때 인체를 배경보다 강조하기 위해 자세 마스크 손실을 사용한다.
Stage II는 I_A와 Stage I 출력에 조건화된 차이 맵 G2(I_A, Î_B1)을 학습하고, (I_A, Î_B2)와 (I_A, I_B) 쌍에서 작동하는 판별자 D를 두는 방식이다.
Adversarial 손실과 마스킹된 L1 항을 함께 사용하여 선명함과 왜곡 억제를 균형 있게 달성한다.
좌 우가 다르게 작용하는 두 단계 학습 스케줄과 자세 임베딩(좌표 대 히트맵) 및 손실의 Ablation 실험을 포함한다.

실험 결과

연구 질문

RQ1참조 외모와 대상 자세 모두에 이미지를 효과적으로 조건화하는 방법은 무엇인가?
RQ2전신 구조 학습과 고주파 상세 정보를 분리하는 두 단계 프레임워크가 자세 전이 사람 이미지의 품질을 개선하는가?
RQ3좌표 기반 임베딩보다 자세 히트맵을 입력으로 사용할 때 자세 정확도와 이미지 품질이 향상되는가?
RQ4자세 중심 손실이 합성 과정에서 배경 누출과 인공물을 줄이는가?

주요 결과

자세-히트맵 임베딩이 좌표 임베딩 및 기타 변형보다 우수한 자세 정확도와 시각적 품질을 보여준다.
자세 마스크 손실은 합성을 인체에 초점을 맞추어 배경 인공물을 줄이는 데 일관되게 개선한다.
Stage I+Stage II의 대립적 정제가 결합된 두 단계 PG2가 단일 단계 대립 모델보다 더 선명하고 현실적인 결과를 낸다.
정량적 결과에서 DeepFashion과 Market-1501에서 ablated 변형에 비해 더 높은 SSIM 및 Inception Scores를 보인다.
사용자 연구에서 두 단계 모델이 더 설득력이 있으며 단일 단계 변형보다 실제 대비 생성 비율이 더 높게 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.