Skip to main content
QUICK REVIEW

[논문 리뷰] DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation

Alexandre Carlier, Martin Danelljan|arXiv (Cornell University)|2020. 07. 22.
Human Motion and Animation참고 문헌 23인용 수 30
한 줄 요약

DeepSVG는 SVG 경로 명령을 비자기회귀적으로 예측하는 계층적 Transformer 기반 VAE를 도입하여 벡터 그래픽의 정확한 재구성 및 매끄러운 보간을 가능하게 하며, 새로운 대형 SVG-Icons8 데이터셋을 제공합니다.

ABSTRACT

Scalable Vector Graphics (SVG) are ubiquitous in modern 2D interfaces due to their ability to scale to different resolutions. However, despite the success of deep learning-based models applied to rasterized images, the problem of vector graphics representation learning and generation remains largely unexplored. In this work, we propose a novel hierarchical generative network, called DeepSVG, for complex SVG icons generation and interpolation. Our architecture effectively disentangles high-level shapes from the low-level commands that encode the shape itself. The network directly predicts a set of shapes in a non-autoregressive fashion. We introduce the task of complex SVG icons generation by releasing a new large-scale dataset along with an open-source library for SVG manipulation. We demonstrate that our network learns to accurately reconstruct diverse vector graphics, and can serve as a powerful animation tool by performing interpolations and other latent space operations. Our code is available at https://github.com/alexandre01/deepsvg.

연구 동기 및 목표

  • 복합 벡터 그래픽이 아닌 래스터 이미지에 대한 학습 동기 부여.
  • 계층적 아키텍처에서 고수준 형상과 저수준 SVG 드로잉 명령을 분리해 표현.
  • SVG 경로의 예측을 비자기회귀적이고 피드포워드 방식으로 수행하여 재구성 및 보간을 향상.
  • 대규모 SVG-Icons8 데이터셋 구축 및 SVG 조작을 위한 오픈 소스 도구키트를 도입.
  • 보간, 애니메이션, 잠재 공간 조작, 글자체 유사 기호 생성 등의 응용 시연

제안 방법

  • SVG를 고정 길이의 인수 목록을 갖는 드로잉 명령의 시퀀스 집합으로 표현합니다.
  • 명령, 좌표, 인덱스 임베딩을 통해 SVG 명령을 연속 공간으로 임베딩합니다.
  • path 인코딩(E1)과 세트 인코딩(E2)으로 구성된 두 단계의 계층적 Transformer 기반 VAE를 사용하여 잠재 z를 얻고, 이후 두 단계 디코더(D2 затем D1)가 경로 표현을 예측하고 이를 명령으로 디코딩합니다.
  • 아 autoregressive 베이스라인과 대조적으로 피드포워드, 비자기회귀적 명령 및 속성 예측을 채택합니다.
  • 예측된 경로를 실제 경로에 매핑하기 위한 순서 기반 또는 Hungarian 방식의 순열 인식 매핑 전략을 포함한 VAE 목적 함수로 학습합니다.
  • 학습 및 평가를 위한 새로운 SVG-Icons8 데이터셋(56개 카테고리의 100,000 아이콘)을 구축하고 활용합니다. 또한 Glyph 생성용 SVG-Fonts에서도 평가합니다.

실험 결과

연구 질문

  • RQ1계층적 Transformer 기반 아키텍처가 복잡한 SVG 벡터 그래픽을 효과적으로 학습하고 생성할 수 있는가?
  • RQ2비자기회귀적(피드포워드) 예측이 벡터 그래픽의 재구성 및 보간 품질을 자기회귀 기반과 비교해 향상시키는가?
  • RQ3SVG 경로의 순열 불변성을 인코딩 및 생성 중 어떻게 활용할 수 있는가?
  • RQ4학습 및 보간 품질에 대해 ground-truth 경로 매핑 전략(ordered 대 Hungarian)의 영향은 무엇인가?
  • RQ5학습된 잠재공간이 벡터 그래픽의 의미 있는 애니메이션 및 잠재 공간 조작을 가능하게 하는가?

주요 결과

Model1st rank % ↑Average rank ↓RE (train/test) ↓IS (train/test) ↓
One-stage autoregressive9.73.260.102 / 0.1700.25 / 0.36
One-stage feed-forward19.52.400.007 / 0.0140.12 / 0.17
Ours – Hungarian25.82.290.011 / 0.0170.09 / 0.14
Ours – Ordered44.81.990.007 / 0.0120.08 / 0.12
  • 계층적 DeepSVG 모델은 자기회귀 기반 대비 우수한 보간 및 재구성 품질을 달성한다.
  • 피드포워드 비자기회귀 예측이 재구성 오차와 보간 부드러움을 자기회귀 모델에 비해 크게 향상시킨다.
  • ground-truth 경로 매칭에 Hungarian 또는 ordered 할당을 사용하면 의미 있는 잠재 공간 보간이 가능하며, ordered 할당이 가장 안정적인 결과를 제공한다.
  • 잠재 공간 연산은 아이콘 간 의미론적으로 의미 있는 벡터 편집 및 애니메이션을 가능하게 하며 전역 형상 변화 및 경로 수준 조작을 포함한다.
  • SVG-Icons8 데이터셋에서 모델은 강력한 재구성, 보간 및 조작 능력을 보여주며 SVG-Fonts 데이터셋에서 글자체 유사 기호 생성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.