QUICK REVIEW

[논문 리뷰] Deep Image Spatial Transformation for Person Image Generation

Yurui Ren, Xiaoming Yu|arXiv (Cornell University)|2020. 03. 02.

Advanced Vision and Imaging참고 문헌 42인용 수 26

한 줄 요약

이 논문은 포즈 가이드드 페르스 이미지 생성을 위한 글로벌 플로우 로컬 어텐션 프레임워크를 제안하며, 특징 수준에서 미분 가능하고 콘텐츠 인식 특징 왜곡을 가능하게 한다. 글로벌 플로우 추정과 로컬 어텐션 기반 샘플링을 결합함으로써, 기준 모델 및 기존 플로우 기반 방법에 비해 뛰어난 세부 사항 보존과 구조적 정확도를 달성한다.

ABSTRACT

Pose-guided person image generation is to transform a source person image to a target pose. This task requires spatial manipulations of source data. However, Convolutional Neural Networks are limited by the lack of ability to spatially transform the inputs. In this paper, we propose a differentiable global-flow local-attention framework to reassemble the inputs at the feature level. Specifically, our model first calculates the global correlations between sources and targets to predict flow fields. Then, the flowed local patch pairs are extracted from the feature maps to calculate the local attention coefficients. Finally, we warp the source features using a content-aware sampling method with the obtained local attention coefficients. The results of both subjective and objective experiments demonstrate the superiority of our model. Besides, additional results in video animation and view synthesis show that our model is applicable to other tasks requiring spatial transformation. Our source code is available at https://github.com/RenYurui/Global-Flow-Local-Attention.

연구 동기 및 목표

페르스 이미지 생성을 위한 특징 수준의 공간 변환에서의 불안정성과 열악한 기울기 전파 문제를 해결하기 위해.
CNN의 공간 재구성 능력의 한계와 공간 변환 네트워크에서 애자일 변환의 강성 문제를 극복하기 위해.
포즈 전달 중에도 세밀한 텍스처를 보존할 수 있는 정확하고 콘텐츠 인식 특징 샘플링을 가능하게 하기 위해.
제안된 모듈이 뷰 합성 및 비디오 애니메이션과 같은 다른 공간 변환 작업으로의 일반화 능력을 입증하기 위해.

제안 방법

모델은 소스 포즈와 타겟 포즈 간의 글로벌 상관관계를 계산하고 2차원 플로우 필드를 예측하여 공간 변환을 위한 글로벌 플로우 필드 추정기를 사용한다.
로컬 신경 텍스처 렌더러는 예측된 플로우 필드를 기반으로 특징 맵에서 로컬 패치 쌍을 추출하여 국소 어텐션 계수를 계산한다.
다양화 가능한 수신 영역를 갖춘 미분 가능하고 적응형 수신 영역를 사용하여 콘텐츠 인식 샘플링을 구현함으로써 특징 재구성 향상과 아티팩트 감소를 달성한다.
학습된 어텐션 가중치를 사용한 빌라인 유사 샘플링 연산을 통해 소스 특징을 왜곡함으로써 안정적인 역전파를 가능하게 한다.
글로벌 플로우 추정과 로컬 특징 선택을 분리함으로써 특징과 플로우 필드 간의 상호 제약을 감소시킨다.
정체성과 현실감을 유지하기 위해 인지적 손실과 적대적 손실을 함께 사용하여 엔드 투 엔드로 모델을 훈련시킨다.

실험 결과

연구 질문

RQ1미분 가능하고 글로벌 플로우 기반 방법이 페르스 이미지 생성에서 특징 수준의 공간 변환 안정성을 향상시킬 수 있는가?
RQ2콘텐츠 인식 로컬 어텐션 샘플링은 고정 또는 글로벌 어텐션과 비교해 세부 텍스처를 얼마나 잘 보존하는가?
RQ3제안된 프레임워크는 기준 모델 및 플로우 기반 기준 모델에 비해 아티팩트를 얼마나 줄이고 성능을 향상시키는가?
RQ4글로벌 플로우 로컬 어텐션 모듈은 페르스 이미지 생성을 초과하여 다른 공간 변환 작업으로 일반화될 수 있는가?

주요 결과

제안된 글로벌 플로우 로컬 어텐션 프레임워크는 주관적 평가와 객관적 평가 모두에서 기준 모델 및 기존 플로우 기반 방법을 능가한다.
절단 분석 결과, 조정 가능한 수신 영역를 갖춘 콘텐츠 인식 샘플링이 고정 샘플링이나 글로벌 어텐션에 비해 아티팩트를 감소시키고 텍스처 충실도를 향상시킴을 확인하였다.
모델은 포즈 전달 중 옷자락 무늬나 피부 텍스처와 같은 세밀한 디테일을 유지하면서도 현실적인 결과를 생성한다.
이 방법은 뷰 합성 및 이미지 애니메이션 작업으로도 잘 일반화되어 자연스러운 새로운 뷰와 운동 일관성을 갖춘 현실적인 비디오 시퀀스를 생성한다.
어텐션 맵의 시각화 결과, 모델이 관련 있는 로컬 소스 패치에 집중함으로써 관련 없는 특징을 피하고 샘플링 정확도를 향상시킨다.
모델은 외관 플로우 및 Bi-Sample 기준 모델보다 더 뛰어난 성능을 보이며, 특히 가림 및 큰 포즈 변화 상황에서의 처리 능력이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.