QUICK REVIEW

[論文レビュー] DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation

Alexandre Carlier, Martin Danelljan|arXiv (Cornell University)|Jul 22, 2020

Human Motion and Animation参考文献 23被引用数 30

ひとこと要約

DeepSVG は SVG パス命令を非自己回帰的に予測する階層型 Transformer ベースの VAE を導入し、正確なベクターグラフィック再構成と滑らかな補間を実現する。新しい大規模 SVG-Icons8 データセットを提供。

ABSTRACT

Scalable Vector Graphics (SVG) are ubiquitous in modern 2D interfaces due to their ability to scale to different resolutions. However, despite the success of deep learning-based models applied to rasterized images, the problem of vector graphics representation learning and generation remains largely unexplored. In this work, we propose a novel hierarchical generative network, called DeepSVG, for complex SVG icons generation and interpolation. Our architecture effectively disentangles high-level shapes from the low-level commands that encode the shape itself. The network directly predicts a set of shapes in a non-autoregressive fashion. We introduce the task of complex SVG icons generation by releasing a new large-scale dataset along with an open-source library for SVG manipulation. We demonstrate that our network learns to accurately reconstruct diverse vector graphics, and can serve as a powerful animation tool by performing interpolations and other latent space operations. Our code is available at https://github.com/alexandre01/deepsvg.

研究の動機と目的

複像グラフィックスをラスタ画像ではなく生成モデルで学習させる動機づけ。
階層型アーキテクチャで高次の形状と低次の SVG 描画命令を分離する。
SVG パスを非自己回帰・順伝播で予測して再構成と補間を改善する。
大規模な SVG-Icons8 データセットと SVG 操作のオープンソースツールキットを導入。
補間、アニメーション、潜在空間操作、フォント風のグリフ生成などの応用を示す。

提案手法

SVG をパスの集合として表現し、各パスは固定長の引数リストを持つ描画命令のシーケンスである。
SVG 命令を命令、座標、インデックスの埋め込みを通じて連続空間へ埋め込む。
2段階の階層型 Transformer ベース VAE を用い、パスエンコーディング (E1) とセットエンコーディング (E2) で潜在 z を得て、次に 2 段階のデコーダ (D2, D1) でパス表現を予測し、それを命令へデコードする。
自己回帰ベースと対照的に、フィードフォワードで非自己回帰な命令と属性の予測を採用する。
予測されたパスを地上真のパスへマップするために、順序付け済みまたは Hungarian の permutation-aware アサインメント戦略を用いた VAE 目的関数で訓練する。
訓練と評価のための新しい SVG-Icons8 データセットを構築・利用する（56 カテゴリで 100,000 アイコン）。また、グリフ生成のために SVG-Fonts も評価する。

実験結果

リサーチクエスチョン

RQ1階層型 Transformer ベースのアーキテクチャは複雑な SVG ベクターグラフィックの学習と生成に効果的か？
RQ2非自己回帰（フィードフォワード）予測は自己回帰ベースに比べてベクタグラフィックの再構成と補間品質を改善するか？
RQ3SVG パスの置換不変性をエンコーディングと生成時にどのように活用できるか？
RQ4地上真のパスとの割り当て戦略（ordered vs Hungarian）が訓練と補間品質に与える影響は？
RQ5学習された潜在空間はベクターグラフィックの意味あるアニメーションと潜在空間操作を可能にするか？

主な発見

モデル	1st rank % ↑	Average rank ↓	RE (train/test) ↓	IS (train/test) ↓
One-stage autoregressive	9.7	3.26	0.102 / 0.170	0.25 / 0.36
One-stage feed-forward	19.5	2.40	0.007 / 0.014	0.12 / 0.17
Ours – Hungarian	25.8	2.29	0.011 / 0.017	0.09 / 0.14
Ours – Ordered	44.8	1.99	0.007 / 0.012	0.08 / 0.12

階層的な DeepSVG モデルは自己回帰ベースの比較法と比べて補間と再構成品質が優れている。
フィードフォワードの非自己回帰予測は自己回帰モデルよりも再構成誤差と補間の滑らかさを大幅に改善する。
地上真パスの割り当てを Hungarian または ordered で行うと意味のある潜在空間補間が可能になり、ordered の割り当てが最も安定した結果を生む。
潜在空間操作により、グローバルな形状変化やパスレベルの操作を含む、アイコン全体にわたる意味的に妥当なベクター編集とアニメーションが可能になる。
SVG-Icons8 データセットにおいて、モデルは強力な再構成、補間、操作能力を示し、SVG-Fonts データセットでのフォント風のグリフ生成も可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。