[논문 리뷰] Photorealistic Style Transfer via Wavelet Transforms
논문은 WCT 2를 소개합니다. 이는 콘텐츠 구조를 보존하고 단일 패스에서 점진적 스타일라이즈를 가능하게 하며, 후처리 없이 고해상도에서 실행되는 웨이브렛 보정 엔드투엔드 포토리얼리스틱 스타일 전송 모델입니다.
Recent style transfer models have provided promising artistic results. However, given a photograph as a reference style, existing methods are limited by spatial distortions or unrealistic artifacts, which should not happen in real photographs. We introduce a theoretically sound correction to the network architecture that remarkably enhances photorealism and faithfully transfers the style. The key ingredient of our method is wavelet transforms that naturally fits in deep networks. We propose a wavelet corrected transfer based on whitening and coloring transforms (WCT$^2$) that allows features to preserve their structural information and statistical properties of VGG feature space during stylization. This is the first and the only end-to-end model that can stylize a $1024 imes1024$ resolution image in 4.7 seconds, giving a pleasing and photorealistic quality without any post-processing. Last but not least, our model provides a stable video stylization without temporal constraints. Our code, generated images, and pre-trained models are all available at https://github.com/ClovaAI/WCT2.
연구 동기 및 목표
- 근거 있는 포토리얼리스틱 스타일 전송의 동기를 제공하고 참조 스타일을 적용하면서 세부 콘텐츠 정보를 보존합니다.
- VGG 기반 인코더/디코더의 손실이 큰 풀링/언풀링을 Haar 웨이브렛 풀링으로 대체하여 정확한 재구성을 가능하게 합니다.
- 하나의 순전파에서 점진적 스타일라이제이션을 제안하여 효율성을 높이고 아티팩트를 줄입니다.
- 최소한의 런타임으로 포스트 프로세스 없이 고해상도(1024×1024) 스타일라이제이션을 demonstrate합니다.
- temporally video stylization을 위한 시간 제약 없이 영상 스타일라이제이션의 시간적 안정성을 보입니다.
제안 방법
- VGG 인코더/디코더의 최대풀링/언풀링을 Haar 웨이브렛 풀링/언풀링으로 교체하여 신호를 정확히 재구성할 수 있게 합니다.
- 스타일 전송을 위해 VGG 특징공간에서 와이닝/컬러링 트랜스폼(WCT)을 사용하고 점진적인 단일 패스 전략을 적용합니다.
- 한 번의 순전파 내에서 인코더 계층(conv1_X에서 conv4_X까지) 간 점진적으로 스타일라이제이션을 수행하여 다단계 디코더를 피합니다.
- 아티팩트를 모니터링하면서 스타일 강도를 높이기 위해 다단계 스타일라이제이션을 옵션으로 추가할 수 있습니다.
- 하나의 인코더-디코더 쌍을 학습하고, 의미 맵을 활용하여 영역별 스타일 전송을 안내합니다; 엔드-투-엔드 파이프라인(WCT 2)을 구현합니다.
- 프레임 이론에 기초하여 타이트한 웨이브렛 프레임과 에너지 컴팩션으로 완전한 재구성을 정당화하고 안정적인 스타일라이제화를 도모합니다.
실험 결과
연구 질문
- RQ1웨이브렛 기반 풀링/언풀링이 포토리얼리스틱 스타일 전송 중 콘텐츠 구조를 보존하기 위한 정확한 재구성을 가능하게 할 수 있을까요?
- RQ2점진적 단일 패스 스타일라이제이션이 다단계 접근보다 동일하거나 더 나은 포토리얼리즘과 안정성을 제공합니까?
- RQ3포스트 프로세스 없이 높은 해상도에서의 스타일라이제이션에서의 정량적/정성적 이익은 무엇입니까?
- RQ4Temporal 제약 없이 비디오 스타일라이제이션에서 WCT 2의 시간적 안정성은 어떠합니까?
주요 결과
| Image Size | DPST | (WCT + post) | Ours |
|---|---|---|---|
| 256×256 | 306.9 | 3.2+9.2 | 3.2 |
| 512×512 | 1020.7 | 3.6+40.2 | 3.8 |
| 896×896 | 2988.6 | 3.8+OOM | 4.4 |
| 1024×1024 | 3887.8 | 3.9+OOM | 4.7 |
- WCT 2는 포스트 프로세스 없이 포토리얼리스틱 스타일라이제이션을 달성하며, 기존 방법과 차별화됩니다.
- 1024×1024 해상도에서 WCT 2는 4.7초에 실행되어 DPST 및 PhotoWCT(전체)보다 현저히 빠르며 메모리 사용도 낮습니다.
- WCT 2는 SSIM이 더 높고 그람 스타일 손실이 더 낮아 기법들에 비해 포토리얼리스틱성과 스타일 충실도가 더 좋습니다.
- 단일 패스 내에서의 점진적 스타일라이제이션은 오차 증폭을 줄이고 단일 인코더-디코더를 가능하게 하여 효율성을 개선합니다.
- 웨이브렛 풀링은 콘텐츠 디테일과 모서리를 보존하여 LL 대 High-frequency 성분 변환 시 선택적 스타일라이제이션이 가능하게 합니다.
- WCT 2를 활용한 비디오 스타일라이제이션은 광학 플로우 제약 없이 시간적 안정성을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.