QUICK REVIEW

[논문 리뷰] StyleBank: An Explicit Representation for Neural Image Style Transfer

Dongdong Chen, Lu Yuan|arXiv (Cornell University)|2017. 03. 27.

Generative Adversarial Networks and Image Synthesis참고 문헌 36인용 수 74

한 줄 요약

StyleBank는 다중 컨볼루션 필터 뱅크를 사용하여 명시적 스타일 표현을 도입하고, 공유 오토인코더를 통해 확장 가능하고 단계적이며 영역별 신경 스타일 전송을 가능하게 한다.

ABSTRACT

We propose StyleBank, which is composed of multiple convolution filter banks and each filter bank explicitly represents one style, for neural image style transfer. To transfer an image to a specific style, the corresponding filter bank is operated on top of the intermediate feature embedding produced by a single auto-encoder. The StyleBank and the auto-encoder are jointly learnt, where the learning is conducted in such a way that the auto-encoder does not encode any style information thanks to the flexibility introduced by the explicit filter bank representation. It also enables us to conduct incremental learning to add a new image style by learning a new filter bank while holding the auto-encoder fixed. The explicit style representation along with the flexible network design enables us to fuse styles at not only the image level, but also the region level. Our method is the first style transfer network that links back to traditional texton mapping methods, and hence provides new understanding on neural style transfer. Our method is easy to train, runs in real-time, and produces results that qualitatively better or at least comparable to existing methods.

연구 동기 및 목표

Neural style transfer에서 콘텐츠와 스타일을 분리하여 하나의 모델에서 여러 스타일을 가능하게 한다.
스타일별 필터 뱅크(StyleBank)를 학습시켜 명시적 스타일 표현을 도입한다.
오토인코더를 재학습하지 않고 새 스타일을 추가할 수 있도록 점진적 학습을 가능하게 한다.
영역별 및 스타일 융합 전송을 허용하여 유연한 스타일링을 제공한다.

제안 방법

콘텐츠를 특징 공간으로 매핑하기 위해 공유 이미지 오토인코더(인코더 E와 디코더 D)를 사용한다.
각 스타일을 나타내는 여러 필터 뱅크로 구성된 StyleBank K를 도입하고, 중간 특징 F에 컨볼루션을 적용하여 스타일화된 특징을 얻는다.
손실로 자동인코더 분기(I -> E -> D)와 스타일링 분기(I -> E -> K -> D)를 사용하고 두 분기로 훈련한다.
손실은 자동인코더용 항등 손실 L_I와 VGG-16 사전 학습된으로 계산된 콘텐츠 손실 L_c, 스타일 손실 L_s, 그리고 전체 변이 손실 L_tv로 구성된 지각 손실 L_K를 포함한다.
학습 균형을 위해 콘텐츠 충실도와 스타일화 사이의 학습을 번갈아 진행하는 2-브랜치 전략을 채택한다.
E와 D를 고정하고 새로운 스타일 필터 뱅크 K_i를 학습시켜 점진적 학습을 지원하며, 선형 및 영역 기반 스타일 융합을 가능하게 한다.

실험 결과

연구 질문

RQ1스타일을 명시적으로 인코딩하여 콘텐츠와 스타일의 분리를 신경 스타일 전송에서 어떻게 달성할 수 있는가?
RQ2단일 네트워크가 여러 스타일을 동시에 학습하고 새로운 스타일의 점진적 추가를 지원할 수 있는가?
RQ3명시적 스타일 표현을 활용하여 영역별 스타일 전송을 달성할 수 있는가?
RQ4StyleBank에서 선형 및 영역 기반 스타일 융합의 효과와 메커니즘은 무엇인가?

주요 결과

StyleBank는 각 스타일을 컨볼루션 필터 뱅크로 표현하며, 뱅크의 서로 다른 채널은 스타일 요소(텍스타인 유사 기초)와 대응한다.
오토인코더는 스타일에 독립적인 콘텐츠 표현을 학습하여 한 네트워크 내에서 디커플링된 다중 스타일 학습을 가능하게 한다.
새로운 스타일을 추가하기 위해 새로운 필터 뱅크만 업데이트하면 되는 점진적 학습으로, 네트워크 전체 재학습에 비해 훈련 시간이 크게 빨라진다( Titan X 환경에서 새로운 스타일은 약 8분 소요).
영역별 스타일 전송과 스타일의 선형 융합은 명시적 StyleBank 표현과 특징 공간 분해에 의해 자연스럽게 지원된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.