QUICK REVIEW

[논문 리뷰] StyTr$^2$: Image Style Transfer with Transformers

Yingying Deng, Fan Tang|arXiv (Cornell University)|2021. 05. 30.

Generative Adversarial Networks and Image Synthesis인용 수 34

한 줄 요약

StyTr^2은 두 도메인 전용 인코더(콘텐츠 및 스타일)와 콘텐츠 인식 위치 인코딩(CAPE)을 갖춘 트랜스포머 기반 스타일 이전 프레임워크를 도입하여 CNN- 및 플로우 기반 방법보다 콘텐츠 보존 및 스타일 충실도를 향상시킵니다.

ABSTRACT

The goal of image style transfer is to render an image with artistic features guided by a style reference while maintaining the original content. Owing to the locality in convolutional neural networks (CNNs), extracting and maintaining the global information of input images is difficult. Therefore, traditional neural style transfer methods face biased content representation. To address this critical issue, we take long-range dependencies of input images into account for image style transfer by proposing a transformer-based approach called StyTr$^2$. In contrast with visual transformers for other vision tasks, StyTr$^2$ contains two different transformer encoders to generate domain-specific sequences for content and style, respectively. Following the encoders, a multi-layer transformer decoder is adopted to stylize the content sequence according to the style sequence. We also analyze the deficiency of existing positional encoding methods and propose the content-aware positional encoding (CAPE), which is scale-invariant and more suitable for image style transfer tasks. Qualitative and quantitative experiments demonstrate the effectiveness of the proposed StyTr$^2$ compared with state-of-the-art CNN-based and flow-based approaches. Code and models are available at https://github.com/diyiiyiii/StyTR-2.

연구 동기 및 목표

CNN 기반 스타일 이전에서의 콘텐츠 편향 표현을 긴 거리 의존성 캡처로 해결한다.
이중 트랜스포머 인코더 아키텍처를 제안하여 콘텐츠 도메인과 스타일 도메인을 각각 모델링한다.
CAPE(콘텐츠 인식 위치 인코딩)를 도입하여 이미지에 대해 규모 불변성, 의미 기반 인코딩을 달성한다.
트랜스포머 디코더와 CNN 업샘플링 디코더를 활용한 점진적 스타일화로 고해상도 출력물을 구현한다.
최첨단 방법 대비 질적 및 정량적 성능이 우수함을 입증한다.

제안 방법

콘텐츠 이미지와 스타일 이미지를 패치로 분할하고 이를 순차 임베딩으로 투사한다.
두 개의 트랜스포머 인코더를 사용하여 도메인별 콘텐츠 및 스타일 표현을 추출한다.
스타일 시퀀스에 따라 콘텐츠 시퀀스를 변환하기 위해 다층 트랜스포머 디코더를 적용한다.
CAPE를 도입하여 콘텐츠에 조건화된 규모 불변성, 의미 인식 위치 인코딩을 제공한다.
고해상도 스타일화 출력을 생성하기 위해 CNN 기반 업샘플링 디코더를 사용한다.
콘텐츠 및 스타일 보존을 위해 지각적 콘텐츠/스타일 손실 및 아이덴티티 손실로 최적화한다.

실험 결과

연구 질문

RQ1CNN 기반 인코더보다 콘텐츠 및 스타일 간 관계를 더 잘 모델링하는 이중 트랜스포머(콘텐츠 및 스타일 인코더)가 가능한가?
RQ2CAPE가 변화하는 이미지 해상도에 대해 규모 불변성 및 스타일화 품질을 향상시키는가?
RQ3 StyTr^2는 콘텐츠 구조를 보존하면서 다양한 스타일 참조를 적용하는 면에서 최첨단 방법과 비교해 어떻게 수행되는가?
RQ4제안된 손실(콘텐츠, 스타일, 아이덴티티)이 콘텐츠 보존 및 스타일 충실도에 미치는 영향은 무엇인가?

주요 결과

StyTr^2는 경쟁 방법들보다 콘텐츠 손실이 낮고(IEST를 두 번째로 우수로 보임) 스타일 손실은 경쟁력 있어 콘텐츠 보존과 스타일 부합도가 강하다는 것을 시사한다.
정성적 결과는 StyTr^2가 콘텐츠 구조를 잘 보존하고 바람직한 스타일 패턴을 생성하여 CNN- 및 플로우 기반 방식에서 흔히 나타나는 왜곡을 줄임을 보여준다.
100명의 참가자와 4,000표의 사용자 연구에서 StyTr^2가 전반적 품질, 콘텐츠 보존 및 스타일 일관성 측면에서 여러 베이스라인에 비해 선호되었다.
다중 스타일링 라운드에서도 트랜스포머 기반 아키텍처로 콘텐츠 누출이 완화되어 선명한 콘텐츠 디테일을 유지한다.
CAPE는 사인곡선 위치 인코딩에 비해 이미지 스케일 변화와 반복 패턴에 대해 향상된 강건성을 보여준다.
연구는 StyTr^2가 여러 CNN 및 트랜스포머 기반 베이스라인과 비교해 콘텐츠 충실도와 스타일 정렬의 균형이 우수함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.