QUICK REVIEW

[論文レビュー] Sketch-pix2seq: a Model to Generate Sketches of Multiple Categories

Yajing Chen, Shikui Tu|arXiv (Cornell University)|Sep 13, 2017

Advanced Image and Video Retrieval Techniques参考文献 9被引用数 45

ひとこと要約

本稿では、Sketch-rnnのRNNエンコーダをCNNに置き換え、KLダイバージェンスペナルティを削除することで、マルチカテゴリスケッチ生成を向上させるVAEベースのモデル、Sketch-pix2seqを提案する。得られたモデルは、より高品質でカテゴリ正確性の高いスケッチを生成でき、多様なカテゴリ間での創造的補間を可能にし、複数のカテゴリにわたり人間らしさと構造的一致性の両面で先行手法を上回る性能を発揮する。

ABSTRACT

Sketch is an important media for human to communicate ideas, which reflects the superiority of human intelligence. Studies on sketch can be roughly summarized into recognition and generation. Existing models on image recognition failed to obtain satisfying performance on sketch classification. But for sketch generation, a recent study proposed a sequence-to-sequence variational-auto-encoder (VAE) model called sketch-rnn which was able to generate sketches based on human inputs. The model achieved amazing results when asked to learn one category of object, such as an animal or a vehicle. However, the performance dropped when multiple categories were fed into the model. Here, we proposed a model called sketch-pix2seq which could learn and draw multiple categories of sketches. Two modifications were made to improve the sketch-rnn model: one is to replace the bidirectional recurrent neural network (BRNN) encoder with a convolutional neural network(CNN); the other is to remove the Kullback-Leibler divergence from the objective function of VAE. Experimental results showed that models with CNN encoders outperformed those with RNN encoders in generating human-style sketches. Visualization of the latent space illustrated that the removal of KL-divergence made the encoder learn a posterior of latent space that reflected the features of different categories. Moreover, the combination of CNN encoder and removal of KL-divergence, i.e., the sketch-pix2seq model, had better performance in learning and generating sketches of multiple categories and showed promising results in creativity tasks.

研究の動機と目的

スケッチ-rnnモデルで観察された、複数カテゴリを同時に学習する際にスケッチ生成品質が低下する問題に取り組むこと。
スケッチの構造的特徴をよりよく捉えるために、RNNエンコーダーをCNNエンコーダーに置き換えることでスケッチ生成を向上させること。
VAEの目的関数からKLダイバージェンスペナルティを削除することで、潜在空間における分離性およびカテゴリ特異的表現が向上するかを調査すること。
異なるカテゴリ間の潜在空間補間を通じて、創造的なスケッチ生成の能力を評価すること。
スタイルは異なるが意味的特徴を共有するキャラクターデザイン（例：コマーシャル風スケッチ）を入力として与え、一般化性能をテストすること。

提案手法

スケッチ-rnnの双方向RNNエンコーダを、スケッチの局所的構造的特徴をよりよく捉えるための畳み込みニューラルネットワーク（CNN）に置き換えた。
VAEの目的関数からカルバック・ライブラー（KL）ダイバージェンス項を削除し、潜在空間を共通のガウス事前分布に強制するのを回避した。
QuickDrawデータセットからの順序付きペンストロークデータを用いて、変分オートエンコーダー（VAE）フレームワークでモデルを訓練した。
異なるカテゴリからの潜在コードを線形に組み合わせることで、潜在空間補間を用いて新規のスケッチを生成した。
人間によるチューリングテストと生成スケッチの定性的分析を通じて、モデルの性能を評価した。
入力としてコマーシャル風のスケッチを供給し、出力におけるスタイルと意味的整合性を評価することで、一般化性能をテストした。

実験結果

リサーチクエスチョン

RQ1RNNエンコーダをCNNエンコーダに置き換えることで、マルチカテゴリ設定下での生成スケッチの品質およびカテゴリ正確性が向上するか？
RQ2VAEの目的関数からKLダイバージェンスペナルティを削除することで、潜在空間におけるカテゴリ特異的特徴の分離性が向上するか？
RQ3異なるカテゴリ間の潜在空間補間を通じて、妥当かつ創造的なスケッチを生成できるか？
RQ4スタイルが異なるが意味的特徴を共有する入力（例：コマーシャル風の図柄）に対して、モデルはスタイリスティックおよび意味的特徴を保持しながら適切に一般化できるか？
RQ5KLダイバージェンスを含むモデルと含まないモデルの潜在空間構造は、クラスタリングおよびカテゴリ分離の観点でどのように異なるか？

主な発見

CNNエンコーダーを用いたモデルは、人間らしさとカテゴリ正確性の両面でRNNベースのモデルを上回り、チューリングテストでも高いスコアを記録した。
KLダイバージェンス項を削除したことで、潜在空間がより構造的でカテゴリに分離されたクラスタを形成し、誤ったまたは混合カテゴリのスケッチの生成が顕著に減少した。
KLダイバージェンスなしのモデルでは、潜在空間補間が一貫性があり解釈可能な結果をもたらし、例えば「ネコのような特徴を持つトラック」や「バスのような体躯を持つウサギ」のようなスケッチを生成できた。
CNN-KLモデルは、学習データに存在しない新規のスケッチを生成でき、例として「顔にホイールがついたネコ」や「兎の頭をもつ車両」といった、強力な創造的潜在能力を示した。
コマーシャル風の入力に対しても、モデルは耳の形状や顔の表情といった重要なスタイリスティック要因を保持しながら適切に一般化し、非写真的でスタイライズされた入力に対しても良好な出力を得た。
可視化の結果、KLダイバージェンスを含むモデルは散らかった混合された潜在空間を示した一方、KLダイバージェンスなしのモデルは明確にカテゴリごとに分離されたクラスタを形成しており、性能向上の背景が説明された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。