[논문 리뷰] Fast Patch-based Style Transfer of Arbitrary Style
빠르고 임의 스타일 전송 방법을 제시하며 단일 레이어 CNN 스타일-스와프 목적과 효율적인 피드포워드 스타일링을 위해 역 네트워크를 사용하여 임의의 콘텐츠 및 스타일 이미지(비디오 포함)에 대해 가능하게 한다.
Artistic style transfer is an image synthesis problem where the content of an image is reproduced with the style of another. Recent works show that a visually appealing style transfer can be achieved by using the hidden activations of a pretrained convolutional neural network. However, existing methods either apply (i) an optimization procedure that works for any style image but is very expensive, or (ii) an efficient feedforward network that only allows a limited number of trained styles. In this work we propose a simpler optimization objective based on local matching that combines the content structure and style textures in a single layer of the pretrained network. We show that our objective has desirable properties such as a simpler optimization landscape, intuitive parameter tuning, and consistent frame-by-frame performance on video. Furthermore, we use 80,000 natural images and 80,000 paintings to train an inverse network that approximates the result of the optimization. This results in a procedure for artistic style transfer that is efficient but also allows arbitrary content and style images.
연구 동기 및 목표
- 임의의 콘텐츠와 스타일 이미지에 대해 per-style 재학습을 피하면서도 효율적인 예술적 스타일 전송을 가능하게 한다.
- 더 쉬운 최적화를 위한 콘텐츠 및 스타일 통계를 결합하는 단일 레이어 목적을 도입한다.
- 콘텐츠 활성화를 스타일 패치와 교환하는 스타일 스왑 연산을 개발하고 일반적인 컨볼루션으로 구현할 수 있게 한다.
- 활성화를 역전시키는 역 네트워크를 학습시켜 잘려진 VGG-19의 최적 역을 근사하고 새로운 스타일 이미지에 대한 빠른 피드포워드 스타일 전송을 가능하게 한다.
제안 방법
- 정규화된 교차상관을 사용해 가장 잘 매칭되는 스타일 패치로 콘텐츠 패치를 대체하는 단일 CNN 레이어에서의 패치 기반 스타일 스왑을 정의한다.
- 2D 컨볼루션, 채널 단위 argmax, 2D 전치 컨볼루션의 세 가지 연산으로 구성된 네트워크로 스타일 스왑을 구현한다.
- Phi(I)와 Phiss(C,S) 사이의 프로베니우스 노름을 최소화하고 총 변화(총 변동) 정규화를 추가하여 스타일화된 활성화를 최적화한다.
- 잘린(VGG-19)의 최적 역을 근사하도록 역 네트워크를 학습시키고 스타일 스왑 활성화를 포함한 증강 학습을 수행한다.
- 피드포워드 파이프라인에서 역 네트워크를 사용: Phi(C)와 Phi(S)를 계산하고 스타일 스왑을 통해 Phi^{ss}(C,S)를 얻은 뒤 역 네트워크로 이미지를 생성한다.
- 이 방법이 재학습 없이 임의의 스타일을 지원하고 비디오에 대해 프레임 간에 일관된 결과를 가능하게 함을 시연한다.
실험 결과
연구 질문
- RQ1단일 레이어 CNN 활성화 목적이 임의의 콘텐츠 및 스타일 이미지와 함께 경쟁력 있는 스타일 전송 결과를 낼 수 있는가?
- RQ2패치 기반 스타일 스왑이 명시적 시간 제약 없이도 시각적으로 만족스러운 결과와 안정적인 비디오 스타일링을 제공하는가?
- RQ3역 네트워크가 새로운 스타일 이미지와 다양한 콘텐츠 크기에 일반화될 수 있는가?
- RQ4제안된 방법이 최적화 기반 및 다른 피드포워드 기반 스타일 전송에 비해 속도와 유연성에서 어떻게 비교되는가?
주요 결과
| 방법 | N. Iters. | Time/Iter. (s) | 총합 (s) |
|---|---|---|---|
| Gatys et al. [11] | 500 | 0.1004 | 50.20 |
| Li and Wand [21] | 200 | 0.6293 | 125.86 |
| Style Swap (Optim) | 100 | 0.0466 | 4.66 |
| Style Swap (InvNet) | 1 | 1.2483 | 1.25 |
- 이 방법은 단일 CNN 레이어(relu3_1)에서 콘텐츠 활성화를 스타일 패치로 교환하고 직관적인 조정은 패치 크기를 통해 가능하므로 시각적으로 만족스러운 결과를 얻는다.
- 스타일 스왑 구현은 표준 컨볼루션 및 전치 컨볼루션 계층으로 실현 가능하여 계산 효율을 높인다.
- 역 네트워크는 최적화 해를 근사하고 새로운 콘텐츠 및 스타일 이미지에 일반화하여 빠른 피드포워드 스타일링 파이프라인을 가능하게 한다.
- 제안된 방식이 스타일 네트워크를 재학습 없이도 임의의 스타일 이미지를 허용하며 프레임 간 일관된 스타일링으로 비디오를 지원한다.
- 비교 시 최적화 기반 Gatys 등 스타일 전송이 제안된 스타일 스왑 방식보다 느리며, 일부 설정에서 역 네트워크가 최적화보다 더 빠른 결과를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.