QUICK REVIEW

[논문 리뷰] Fashion Editing with Multi-scale Attention Normalization.

Haoye Dong, Xiaodan Liang|arXiv (Cornell University)|2019. 06. 03.

Generative Adversarial Networks and Image Synthesis참고 문헌 14인용 수 10

한 줄 요약

이 논문은 자유형 이미지 편집 중 스케치 및 색상 스트로크 세부 정보를 유지하기 위해 다중 척도 주의 정규화를 활용하는 새로운 생성 적대적 네트워크인 FE-GAN을 제안한다. 사용자 제공의 스케치와 색상 스트로크를 조건으로 하는 자유형 파싱 네트워크를 도입하고, 인간의 파싱 맵으로부터의 의미 지침을 활용한 파싱 인식 인painting 네트워크를 통합함으로써, 고해상도 패션 데이터셋에서 최신 기술 대비 이미지 품질과 편집 정확도를 크게 향상시킨다.

ABSTRACT

Interactive fashion image manipulation, which enables users to edit images with sketches and color strokes, is an interesting research problem with great application value. Existing works often treat it as a general inpainting task and do not fully leverage the semantic structural information in fashion images. Moreover, they directly utilize conventional convolution and normalization layers to restore the incomplete image, which tends to wash away the sketch and color information. In this paper, we propose a novel Fashion Editing Generative Adversarial Network (FE-GAN), which is capable of manipulating fashion images by free-form sketches and sparse color strokes. FE-GAN consists of two modules: 1) a free-form parsing network that learns to control the human parsing generation by manipulating sketch and color; 2) a parsing-aware inpainting network that renders detailed textures with semantic guidance from the human parsing map. A new attention normalization layer is further applied at multiple scales in the decoder of the inpainting network to enhance the quality of the synthesized image. Extensive experiments on high-resolution fashion image datasets demonstrate that the proposed method significantly outperforms the state-of-the-art methods on image manipulation.

연구 동기 및 목표

기존 패션 편집 방법이 이미지 편집을 일반적인 인painting으로 간주하여 구조적 및 색상 세부 정보를 유지하지 못하는 한계를 해결하기 위해.
패션 이미지의 의미적 구조 정보를 효과적으로 활용하여 더 정확하고 제어 가능한 편집을 가능하게 하는 프레임워크를 개발하기 위해.
디코더에 다중 척도 주의 정규화 레이어를 도입하여 세밀한 스케치 및 색상 스트로크 세부 정보를 유지함으로써 이미지 합성 품질을 향상시키기 위해.
실제 텍스처 생성을 유지하면서 스케치와 흩어진 색상 스트로크를 모두 사용한 자유형 편집을 가능하게 하기 위해.
최신 기술 대비 고해상도 패션 이미지 데이터셋에서 뛰어난 성능을 보여주기 위해.

제안 방법

사용자가 제공한 스케치와 색상 스트로크를 조건으로 하여 인간의 파싱 맵을 생성하는 자유형 파싱 네트워크를 도입한다.
생성된 파싱 맵을 의미 지침으로 사용하여 세부 무늬를 재구성하는 파싱 인식 인painting 네트워크를 구현한다.
다양한 수용 영역에서 특징 표현을 향상시키기 위해 인painting 네트워크의 디코더에 다중 척도 주의 정규화 레이어를 통합한다.
주의 정규화 메커니즘은 공간적 및 채널 차원을 모두 고려하여 장거리 의존성을 모델링함으로써 특징 맵을 적응적으로 재조정한다.
실제감과 편집 일관성을 확보하기 위해 생성 적대적 손실, 인지 손실, 아이덴티티 손실을 사용하여 전체 FE-GAN 프레임워크를 엔드 투 엔드로 훈련시킨다.
훈련 안정성과 생성 품질 향상을 위해 스킵 연결과 다중 척도 감시를 활용한다.

실험 결과

연구 질문

RQ1기존의 정규화 레이어에 의존하지 않고도 생성 모델이 패션 이미지 편집 중 스케치 및 색상 스트로크 세부 정보를 효과적으로 유지할 수 있는가?
RQ2디코더에서 표준 정규화 대비 다중 척도 주의 정규화가 합성된 패션 이미지의 품질과 정확도에 어떻게 기여하는가?
RQ3파싱 인식 인painting 네트워크는 의미 파싱 맵을 얼마나 효과적으로 활용하여 자유형 편집 환경에서 현실적인 무늬를 생성할 수 있는가?
RQ4제안된 FE-GAN은 고해상도 패션 이미지 데이터셋에서 기존 최신 기술 대비 이미지 품질과 편집 정확도 측면에서 뛰어난 성능을 보일 수 있는가?

주요 결과

제안된 FE-GAN은 고해상도 패션 이미지 편집 벤치마크에서 뛰어난 성능을 달성하여 최신 기술을 크게 능가한다.
다중 척도 주의 정규화의 통합으로 더 선명한 세부 정보와 스케치 및 색상 스트로크 정보의 보존이 향상된다.
파싱 인식 인painting 네트워크는 의미 파싱 맵을 지침으로 활용하여 효과적으로 현실적인 무늬를 생성한다.
절단 실험을 통해 다중 척도 주의 정규화 레이어가 이미지 품질 향상에 크게 기여하는 것으로 확인된다.
사용자 연구와 정량적 평가를 통해 기준 방법 대비 향상된 편집 정확도와 시각적 현실감을 입증한다.
다양한 패션 레이아웃과 복잡한 편집 시나리오, 특히 자유형 스케치 및 흩어진 색상 스트로크 입력에 대해 모델이 잘 일반화됨을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.