QUICK REVIEW

[논문 리뷰] Learning to Infer Graphics Programs from Hand-Drawn Images

Kevin Ellis, Daniel Ritchie|arXiv (Cornell University)|2017. 07. 30.

Software Engineering Research인용 수 49

한 줄 요약

이 논문은 손으로 그린 스케치를 구조적 LATEX 그래픽 프로그램으로 변환하는 딥러닝 및 프로그램 합성 프레임워크를 제시한다. 먼저 주어진 이미지에서 주로 주의 메커니즘을 갖춘 컨volutional 신경망을 통해 그림 명령어의 기호적 사양(spec)을 추론한 후, 반복문, 조건문, 대칭성 등을 포함한 고수준 프로그램을 합성한다. 주요 기여는 프로그램 합성의 속도를 높여주는 학습된 약간의 추론 기법으로, 이는 오류 수정, 프로그램 구조 기반 유사도 측정, 반복 패턴의 외삽을 가능하게 한다.

ABSTRACT

We introduce a model that learns to convert simple hand drawings into graphics programs written in a subset of \LaTeX. The model combines techniques from deep learning and program synthesis. We learn a convolutional neural network that proposes plausible drawing primitives that explain an image. These drawing primitives are like a trace of the set of primitive commands issued by a graphics program. We learn a model that uses program synthesis techniques to recover a graphics program from that trace. These programs have constructs like variable bindings, iterative loops, or simple kinds of conditionals. With a graphics program in hand, we can correct errors made by the deep network, measure similarity between drawings by use of similar high-level geometric structures, and extrapolate drawings. Taken together these results are a step towards agents that induce useful, human-readable programs from perceptual input.

연구 동기 및 목표

간단한 2차원 손그림 스케치에서 고수준 그래픽 프로그램을 추론하는 시스템을 개발하는 것.
이미지와 같은 감각 입력과 반복문, 조건문 등의 구조를 가진 기호적 실행 가능한 프로그램 사이의 갭을 메우는 도전 과제를 해결하는 것.
스케치에서 구조적 프로그램을 복원함으로써 고수준의 이미지 편집과 추론을 가능하게 하는 것.
딥러닝을 활용한 약간의 추론를 통해 프로그램 합성의 계산 비용을 줄이는 것.

제안 방법

다양체적 공간 변환기를 갖춘 컨volutional 신경망이 이미지 영역에 주의를 기울이며, 이전에 생성된 명령어에 조건화된 방식으로 하나씩 그림 명령어를 생성한다.
신경망은 다층 퍼셉트론을 사용하여 이산적인 16×16 격자 위에서 기본 명령어(예: 선, 사각형, 원)의 분포를 예측한다.
순차 몬테카를로(Sequential Monte Carlo)를 통한 확률적 탐색을 통해 입력 이미지에서 기호적 사양(spec)을 추론한다.
제약 기반 프로그램 합성 엔진이 추론된 사양에서 반복문, 조건문, 대칭성 등을 포함한 고수준 프로그램을 재구성한다.
학습된 신경망이 확률적 탐색을 근사화함으로써 약간의 추론을 달성하여, 고비용의 온라인 추론이 필요로 하는 것을 줄인다.
신경망 기반 인식과 기호적 추론을 조합하여 실행 가능하고 인간이 읽을 수 있는 그래픽 프로그램을 생성한다.

실험 결과

연구 질문

RQ1딥 뉴럴 네트워크는 노이즈가 많은 손그림 이미지에서 그림 명령어의 기호적 사양을 효과적으로 추론할 수 있는가?
RQ2어떻게 하면 프로그램 합성 기법을 가속화하고 실세계의 스케치-코드 변환에 실용적으로 적용할 수 있는가?
RQ3학습된 프로그램이 단순한 스케치에서 대칭성과 반복성 같은 고수준 시각적 개념을 어느 정도 잘 포착할 수 있는가?
RQ4추론된 프로그램은 반복 패턴의 외삽과 같은 일관된 이미지 편집을 가능하게 하는가?
RQ5의미적 구조를 포착하는 데 있어 프로그램 수준의 유사도는 이미지 수준의 유사도보다 얼마나 더 효과적인가?

주요 결과

모델은 높은 정확도로 손그림 이미지에서 기호적 사양을 성공적으로 추론하여 후속 프로그램 합성을 가능하게 한다.
학습된 신경망을 통한 약간의 추론을 사용함으로써 표준 확률적 탐색 대비 프로그램 합성의 계산 비용을 크게 감소시켰다.
프로그램 수준의 의미 일관성을 활용하여 딥 네트워크가 범한 오류를 수정할 수 있다.
프로그램 수준의 유사도 측정법은 대칭성과 반복성과 같은 고수준 기하학적 구조를 효과적으로 포착하며, 의미적 구조를 포착하는 데 있어 이미지 수준의 유사도를 능가한다.
합성된 프로그램의 반복문 범위를 수정하여 원본 스케치보다 더 큰 스케일의 일관된 버전의 그림을 외삽할 수 있다.
실험 결과 모델이 새로운 스케치에 일반화되며, 의도한 시각적 구조를 반영하는 실행 가능한 LATEX 그래픽 프로그램을 생성하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.