[논문 리뷰] Learning Linear Transformations for Fast Arbitrary Style Transfer
본 논문은 경량 CNN을 통해 선형 변환 행렬 T를 학습하여 빠른 임의 스타일 전이(arbitrary style transfer)를 수행하고, 2차 통계를 모델링하며 콘텐츠 친화성을 보존하고, 예술적, 사진실감형, 비디오 및 도메인 적응 과제에 적용 가능하다.
Given a random pair of images, an arbitrary style transfer method extracts the feel from the reference image to synthesize an output based on the look of the other content image. Recent arbitrary style transfer methods transfer second order statistics from reference image onto content image via a multiplication between content image features and a transformation matrix, which is computed from features with a pre-determined algorithm. These algorithms either require computationally expensive operations, or fail to model the feature covariance and produce artifacts in synthesized images. Generalized from these methods, in this work, we derive the form of transformation matrix theoretically and present an arbitrary style transfer approach that learns the transformation matrix with a feed-forward network. Our algorithm is highly efficient yet allows a flexible combination of multi-level styles while preserving content affinity during style transfer process. We demonstrate the effectiveness of our approach on four tasks: artistic style transfer, video and photo-realistic style transfer as well as domain adaptation, including comparisons with the state-of-the-art methods.
연구 동기 및 목표
- 임의 스타일 전이를 촉진하고 2차 통계 변환의 계산 비용을 줄인다.
- 콘텐츠와 스타일 통계를 연결하는 변환 행렬의 이론적 형태를 도출한다.
- 작은 CNN을 사용하여 T를 예측하는 학습 기반의 효율적인 방법을 제안한다.
- 예술적, 비디오, 사진실감형 스타일 전이 및 도메인 적응에 걸친 적용 가능성을 보여준다.
제안 방법
- 콘텐츠와 스타일 특징 간 공분산을 맞추는 선형 변환 T를 학습으로 모델링하여 스타일 전이를 정의한다.
- 콘텐츠/스타일 특징의 공분산 행렬을 입력으로 받아 중간 행렬을 출력하는 두 개의 작은 CNN을 사용하여 T를 구성한다.
- 비싼 행렬 분해를 피하기 위해 T 계산을 분해하고, 압축 특징 경로(CONVs)와 최종 완전 연결 계층을 사용한다.
- 고정된 VGG-19 손실 네트워크를 통해 계산된 다층 스타일 손실과 콘텐츠 손실을 결합한 손실로 학습한다.
- 단일 T에서 relu1_1, relu2_1, relu3_1, relu4_1에서 손실을 강제하여 여러 스타일 레벨을 결합하도록 허용한다.
실험 결과
연구 질문
- RQ1학습된 선형 변환 행렬 T가 임의 스타일 전시에 필요한 2차 통계를 포착할 수 있는가?
- RQ2콘텐츠용 하나와 스타일용 하나의 두 CNN 설계가 공동 입력 네트워크와 비교하여 안정적이고 효율적인 T를 생성하는가?
- RQ3다층 스타일 손실로 T를 제어하는 것이 예술적, 비디오, 사진실감형, 도메인 적응과 같은 과제에서 품질과 유연성에 어떤 영향을 미치는가?
주요 결과
| 이미지 크기 | Ulyanov 등 2017 | Gatys 등 2016 | Huang 등 2017 | Li 등 2017 | Ours (relu3_1) | Ours (relu4_1) |
|---|---|---|---|---|---|---|
| 256 | 0.013 | 16.51 | 0.019 | 0.922 | 0.007 | 0.010 |
| 512 | 0.028 | 59.45 | 0.071 | 1.080 | 0.025 | 0.036 |
| 1024 | 0.092 | N/A | N/A | N/A | 0.100 | 0.146 |
- 본 방법은 임의 스타일 전이를 위한 빠르고 엔드투엔드 피드포워드 파이프라인(약 140 fps)을 제공한다.
- 단일 학습된 T가 서로 다른 스타일 손실 구성으로 여러 레벨의 스타일을 캐스케이드 인코더 없이 표현할 수 있다.
- 변환 모듈에 대한 공분산 기반 입력은 원시 이미지나 특징을 사용하는 것보다 일반화 성능을 향상시킨다.
- 콘텐츠 친화성을 보존하여 안정적인 비디오 스타일링 및 왜곡 없는 사진실감형 스타일링이 가능하다.
- 응용 분야로 예술적, 비디오, 사진실감형 스타일 전이 및 도메인 적응(예: 게임에서 현실로) 등을 포함하며 경쟁력 있는 결과를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.