QUICK REVIEW

[논문 리뷰] Cloth Interactive Transformer for Virtual Try-On

Bin Ren, Hao Tang|arXiv (Cornell University)|2021. 04. 12.

Generative Adversarial Networks and Image Synthesis인용 수 14

한 줄 요약

이 논문은 2D 이미지 기반 가상 피팅을 위한 이단계 Cloth Interactive Transformer (CIT)를 제안한다. 교차 어텐션 트랜스포머를 사용하여 착용자와 옷의 특징 간의 장거리 상호작용 상관관계를 워핑 및 렌더링 단계에서 모델링한다. 이 방법은 질감의 정확성과 마스크 정렬을 향상시켜 기존 방법에 비해 시각적 품질에서 뛰어난 더 현실적인 피팅 결과를 달성한다. 표준 지표에서는 중간 정도의 향상 수준을 보이지만, 실제로는 더 자연스럽고 현실적인 결과를 낸다.

ABSTRACT

The 2D image-based virtual try-on has aroused increased interest from the multimedia and computer vision fields due to its enormous commercial value. Nevertheless, most existing image-based virtual try-on approaches directly combine the person-identity representation and the in-shop clothing items without taking their mutual correlations into consideration. Moreover, these methods are commonly established on pure convolutional neural networks (CNNs) architectures which are not simple to capture the long-range correlations among the input pixels. As a result, it generally results in inconsistent results. To alleviate these issues, in this paper, we propose a novel two-stage cloth interactive transformer (CIT) method for the virtual try-on task. During the first stage, we design a CIT matching block, aiming to precisely capture the long-range correlations between the cloth-agnostic person information and the in-shop cloth information. Consequently, it makes the warped in-shop clothing items look more natural in appearance. In the second stage, we put forth a CIT reasoning block for establishing global mutual interactive dependencies among person representation, the warped clothing item, and the corresponding warped cloth mask. The empirical results, based on mutual dependencies, demonstrate that the final try-on results are more realistic. Substantial empirical results on a public fashion dataset illustrate that the suggested CIT attains competitive virtual try-on performance.

연구 동기 및 목표

기존의 2D 이미지 기반 가상 피팅 방법들이 착용자와 옷의 특징 간 상호작용 상관관계를 제대로 모델링하지 못하는 한계를 해결하기 위해.
순수한 CNN의 능력 이상의 장거리 공간적 의존성을 캡처하여 변형된 옷의 현실성 향상.
통합된 트랜스포머 기반 추론 프레임워크를 통해 착용자 표현, 변형된 옷, 그리고 그 마스크 간의 상호작용적 의존성을 모델링하여 최종 피팅 이미지 품질 향상.
패atters나 무늬가 있는 옷과 같은 복잡한 케이스에서의 잡음 제거 및 시각적 타당성 향상.

제안 방법

이중단계 프레임워크를 제안한다: (1) 기하학적 매칭 단계에서는 교차 어텐션을 통해 착용자 및 옷의 특징를 개선하는 CIT 매칭 블록을 사용하고, (2) 피팅 단계에서는 다중모odal 상호작용을 위한 CIT 추론 블록을 사용한다.
CIT 매칭 블록에서 장거리 상관관계를 모델링하기 위해 학습 가능한 교차 어텐션 트랜스포머 인코더를 사용한다. 이는 옷에 관계없는 착용자 특징와 상점에서 촬영한 옷의 특징 간의 관계를 모델링한다.
착용자 표현, 변형된 옷, 그리고 그 마스크를 동시에 모델링하는 새로운 삼중모달 CIT 추론 블록을 도입하여 마스크 조합 및 특징 정제를 향상시킨다.
장소 변형을 위한 투명판 스플라인(TPS) 변환을 사용하며, 이는 CIT 매칭 블록에서 생성된 상관도 맵에 의해 유도된다.
변형된 마스크에 대한 L1 손실과 정규화를 포함한 다중손실 학습 목표를 도입하여 정렬 및 세부 정보 유지 향상.
자기 어텐션 메커니즘을 활용하여 국소적 감각을 갖는 표준 컨volution 네트워크의 한계를 극복하고 전역적 맥락 모델링을 가능하게 한다.

실험 결과

연구 질문

RQ1상호작용 어텐션 메커니즘이 가상 피팅에서 착용자와 옷의 특징 간 장거리 의존성을 향상시키는 데 기여하는가?
RQ2착용자, 변형된 옷, 그리고 그 마스크 간의 상호작용적 상관관계를 명시적으로 모델링하면 더 현실적인 피팅 결과를 낳는가?
RQ3이중단계 트랜스포머 기반 아키텍처가 복잡한 무늬나 패턴을 가진 의류에 대해 CNN 기반 베이스라인에 비해 시각적 품질에서 뛰어나게 되는가?
RQ4IoU나 FID와 같은 표준 지표들이 가상 피팅에서 인간의 현실감 인식과 얼마나 관련이 있는가?

주요 결과

전체 CIT 모델(B3)은 지표와 시각적 품질의 최적의 균형을 달성하였으며, FID 13.97과 KID 0.761을 기록하여, JS와 IS 점수는 약간 낮지만, 인지적 품질에서 CP-VTON+ 베이스라인을 능가하였다.
제거 실험 결과, CIT 추론 블록만 추가한 B2 모델도 SSIM과 IS 점수 향상을 보이며, 더 나은 특징 정제와 이미지 선명도를 입증하였다.
CIT 매칭 블록(B1)은 변형된 옷의 현실성 향상에 크게 기여하였으며, 질적 결과를 통해 더 나은 질감 정렬과 잡음 감소를 확인하였다.
IoU(0.813)는 높고 LPIPS(0.110)는 낮지만, 추가적인 L1 마스크 손실이 포함된 B4 변종은 B3보다 더 열악한 시각적 결과를 보였으며, 이는 높은 지표 점수도 항상 더 나은 인지적 품질을 의미하지는 않는다는 것을 시사한다.
사용자 연구 결과, B3(전체 CIT)는 B4보다 더 사진처럼 현실적인 결과를 생성했고, 옷의 세부 정보도 더 잘 보존했다. 이는 B4가 일부 지표에서 더 높은 점수를 받았음에도 불구하고 사실이다.
실패 사례 분석을 통해 큰 옷-기준 차이, 자기 음영, 자세-옷 불일치 등의 문제를 드러내었으며, 이는 더 나은 입력 애너테이션 또는 3D 데이터 통합이 필요함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.