QUICK REVIEW

[논문 리뷰] Sketch-pix2seq: a Model to Generate Sketches of Multiple Categories

Yajing Chen, Shikui Tu|arXiv (Cornell University)|2017. 09. 13.

Advanced Image and Video Retrieval Techniques참고 문헌 9인용 수 45

한 줄 요약

이 논문은 RNN 인코더를 컨볼루션 네트워크(CNN)로 대체하고 KL 발산 페널티를 제거함으로써 다중 카테고리 스케치 생성을 향상시킨 VAE 기반 모델인 Sketch-pix2seq을 제안한다. 결과적으로 더 높은 품질의 스케치를 생성하고 카테고리 정확도를 높이며 다양한 카테고리 간 창의적인 보간을 가능하게 하여 인간 스케치와의 유사성 및 다중 카테고리에 걸친 구조적 일관성 측면에서 이전 방법들을 능가한다.

ABSTRACT

Sketch is an important media for human to communicate ideas, which reflects the superiority of human intelligence. Studies on sketch can be roughly summarized into recognition and generation. Existing models on image recognition failed to obtain satisfying performance on sketch classification. But for sketch generation, a recent study proposed a sequence-to-sequence variational-auto-encoder (VAE) model called sketch-rnn which was able to generate sketches based on human inputs. The model achieved amazing results when asked to learn one category of object, such as an animal or a vehicle. However, the performance dropped when multiple categories were fed into the model. Here, we proposed a model called sketch-pix2seq which could learn and draw multiple categories of sketches. Two modifications were made to improve the sketch-rnn model: one is to replace the bidirectional recurrent neural network (BRNN) encoder with a convolutional neural network(CNN); the other is to remove the Kullback-Leibler divergence from the objective function of VAE. Experimental results showed that models with CNN encoders outperformed those with RNN encoders in generating human-style sketches. Visualization of the latent space illustrated that the removal of KL-divergence made the encoder learn a posterior of latent space that reflected the features of different categories. Moreover, the combination of CNN encoder and removal of KL-divergence, i.e., the sketch-pix2seq model, had better performance in learning and generating sketches of multiple categories and showed promising results in creativity tasks.

연구 동기 및 목표

스케치-rnn 모델에서 다중 카테고리를 동시에 학습할 경우 스케치 생성 품질이 저하되는 문제를 해결하기 위해.
스케치의 구조적 특징을 더 잘 포착하기 위해 RNN 인코더를 CNN 인코더로 대체하여 스케치 생성을 향상시키기 위해.
VAE 목적 함수에서 KL 발산 페널티를 제거하면 잠재 공간 내에서 카테고리 특화된 표현과 분리된 특징이 향상되는지 조사하기 위해.
다른 카테고리 간 잠재 공간 보간을 통해 창의적인 스케치 생성 능력을 평가하기 위해.
스케치와 의미적 특징은 공유하지만 스타일이 다른 만화 스타일 입력에 대해 일반화 능력을 테스트하기 위해.

제안 방법

스케치-rnn의 양방향 RNN 인코더를 스케치의 국소적 구조적 특징을 더 잘 포착할 수 있도록 컨볼루션 신경망(CNN)으로 대체하였다.
VAE 목적 함수에서 쿨백-라이블러(KL) 발산 항을 제거하여 잠재 공간을 공통의 가우시안 사전 분포로 강제로 몰아넣는 것을 방지하였다.
퀵드로우 데이터셋의 순차적 펜 스트로크 데이터를 사용하여 변분 오토인코더(VAE) 프레임워크 하에 모델을 훈련시켰다.
다른 카테고리의 잠재 코드를 선형으로 조합하여 새로운 스케치를 생성하기 위해 잠재 공간 보간을 활용하였다.
인간 터닝 테스트와 생성된 스케치의 정성적 분석을 통해 모델 성능을 평가하였다.
입력으로 만화 스타일 스케치를 제공하고 출력물의 스타일 및 의미적 일관성 여부를 평가하여 일반화 능력을 테스트하였다.

실험 결과

연구 질문

RQ1RNN 인코더를 CNN 인코더로 대체하면 다중 카테고리 설정에서 생성된 스케치의 품질과 카테고리 정확도가 향상되는가?
RQ2VAE 목적 함수에서 KL 발산 페널티를 제거하면 잠재 공간 내에서 카테고리 특화된 특징의 분리가 향상되는가?
RQ3다른 카테고리 간 잠재 공간 보간을 통해 모델이 자연스럽고 창의적인 스케치를 생성할 수 있는가?
RQ4스케치가 아니지만 스타일은 다르지만 의미적 특징을 공유하는 입력(예: 만화 인물)에 대해 모델이 잘 일반화되는가? 특히 스타일 및 의미적 특징을 유지하는가?
RQ5KL 발산이 있는 모델과 없는 모델의 잠재 공간 구조는 군집화 및 카테고리 간 분리 측면에서 어떻게 다를까?

주요 결과

CNN 인코더를 사용한 모델은 인간 스케치와 유사한 스케치를 더 잘 생성하였으며, 인간 터닝 테스트에서 더 높은 품질과 더 나은 카테고리 정확도를 보였다.
KL 발산 항을 제거함으로써 더 구조화되고 카테고리로 분리된 잠재 공간이 형성되어 잘못된 카테고리나 혼합 카테고리 스케치의 생성을 줄였다.
KL 발산을 제거한 모델에서의 잠재 공간 보간은 일관되고 해석 가능한 결과를 생성하였으며, 예를 들어 고양이 같은 특징을 가진 트럭이나 버스 같은 몸통을 가진 토끼와 같은 스케치를 생성하였다.
CNN-KL 모델은 훈련 데이터에 존재하지 않는 새로운 스케치를 성공적으로 생성하였으며, 얼굴에 바퀴가 달린 고양이나 토끼 머리가 달린 차량과 같은 창의적 잠재력을 보였다.
모델는 만화 입력에 대해 잘 일반화되어 있었으며, 귀의 형태나 얼굴 표정과 같은 주요 스타일적 요소를 유지하는 스케치를 생성하였다. 이는 입력이 스타일리시하고 비사진적인 경우에도 성립하였다.
시각화 결과, KL 발산이 있는 모델는 산산이 흩어진 혼합된 잠재 공간을 보였지만, KL 발산이 없는 모델는 명확하고 카테고리로 분리된 군집을 형성하여 성능 향상의 이유를 설명해주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.