Skip to main content
QUICK REVIEW

[論文レビュー] A Neural Representation of Sketch Drawings

David Ha, Douglas Eck|arXiv (Cornell University)|Apr 11, 2017
Human Motion and Animation被引用数 545
ひとこと要約

Sketch-rnnは、ベクトルスケッチを生成・再構成することを学習するRNNベースの変分オートエンコーダで、条件付きおよび無条件のスケッチ合成と潜在空間探索を可能にします。

ABSTRACT

We present sketch-rnn, a recurrent neural network (RNN) able to construct stroke-based drawings of common objects. The model is trained on thousands of crude human-drawn images representing hundreds of classes. We outline a framework for conditional and unconditional sketch generation, and describe new robust training methods for generating coherent sketch drawings in a vector format.

研究の動機と目的

  • ピクセルベースの画像モデリングの代替として、ベクトル(ストロークベース)描画の生成モデル開発を動機付ける。
  • 無条件および条件付きのスケッチ生成が可能な再帰型ニューラルネットワークフレームワーク(sketch-rnn)を提案する。
  • ベクトルスケッチの堅牢な訓練手法を開発し、潜在空間のエンコーディング、補間、および完了をデモンストレーションする。
  • 大規模な公開ベクトルスケッチデータセットとオープンソース実装を公開して、さらなる研究を促進する。

提案手法

  • スケッチを5要素データ点(∆x、∆y、p1、p2、p3)を持つペン筆致動作の系列として表現する。
  • VAEフレームワーク(µ, σ)を用いて、双方向エンコーダRNNで潜在ベクトルzを生成する。
  • zを条件とした自己回帰デコーダRNNで次の点を予測し、(∆x, ∆y)はGaussian Mixture Model (GMM)、ペン状態(p1, p2, p3)はカテゴリー分布で表す。
  • 再構成損失LR(予測分布下のデータ尤度)とzと標準ガウスとのKL発散損失LKLをKLアニーリングとともに訓練する。
  • 生成スケッチの多様性を制御するため、サンプリングランダム性を温度τで調整する。
  • 潜在条件入力を排除し、デコーダのみを使用して無条件生成を許可する。

実験結果

リサーチクエスチョン

  • RQ1複数のオブジェクトクラスにわたって、シーケンスツーシーケンスVAEを訓練して、整合性のあるベクトルスケッチをモデリング・生成できるか。
  • RQ2潜在ベクトルzを条件とした場合、スケッチの生成と再構成にどのような影響を与えるか。
  • RQ3潜在空間の形成とスケッチの補間品質を形作るKL事前分布の役割は何か。
  • RQ4モデルはスケッチの補完、スケッチ間の補間、潜在空間でのクラス間類推を実行できるか。
  • RQ5クラス数とモデルハイパーパラメータが再構成・生成品質にどのように影響するか。

主な発見

DatasetwKL = 1.00 LRwKL = 1.00 LKLwKL = 0.50 LRwKL = 0.50 LKLwKL = 0.25 LRwKL = 0.25 LKLDecoder Only LRDecoder Only LKL
cat-0.980.29-1.330.70-1.461.01-0.57-
pig-1.140.22-1.370.49-1.520.80-0.82-
cat, pig-1.020.22-1.240.49-1.500.98-0.75-
crab, face, pig, rabbit-0.910.22-1.040.40-1.471.17-0.67-
face-1.130.27-1.550.71-1.901.44-0.73-
firetruck-1.240.22-1.260.24-1.781.10-0.90-
garden-0.790.20-0.810.25-0.990.54-0.62-
owl-0.930.20-1.030.34-1.290.77-0.66-
mosquito-0.670.30-1.020.66-1.411.54-0.34-
yoga-0.800.24-1.070.55-1.511.33-0.48-
  • このモデルは、複数のオブジェクトクラスに対して、条件付きおよび無条件の両方のモードでベクトルスケッチを生成・再構成できる。
  • 潜在空間の補間はスケッチ間の一貫したモーフィングをもたらし、より高いKL重みは多様体の一貫性と補間品質を向上させる。
  • 条件付き生成は潜在空間での類推と部位操作を可能にし、意味のある意味論的方向を示す。
  • サンプリング温度τは多様性を調整し、低いτはより決定的で高品質な再構成をもたらす。
  • 定性的評価で、スケッチの補完、4-way潜在補間、クラス横断転送(例:猫に犬の特徴を付与)を実証する。
  • 公開されたQuickDrawベースのベクトルスケッチデータセットとオープンソース実装が本研究とともに提供される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。