QUICK REVIEW

[논문 리뷰] Learning to Paint With Model-based Deep Reinforcement Learning

Zhewei Huang, Wen Heng|arXiv (Cornell University)|2019. 03. 11.

Generative Adversarial Networks and Image Synthesis참고 문헌 40인용 수 40

한 줄 요약

이 작업은 differentiable neural renderer를 통해 수백 개의 스트로크를 순차적으로 배치하여 대상 이미지를 그리는 모델 기반 DRL 에이전트를 학습시키고, 인간 스트로크 데이터 없이 MNIST, SVHN, CelebA, ImageNet에서 현실적인 결과를 달성합니다.

ABSTRACT

We show how to teach machines to paint like human painters, who can use a small number of strokes to create fantastic paintings. By employing a neural renderer in model-based Deep Reinforcement Learning (DRL), our agents learn to determine the position and color of each stroke and make long-term plans to decompose texture-rich images into strokes. Experiments demonstrate that excellent visual effects can be achieved using hundreds of strokes. The training process does not require the experience of human painters or stroke tracking data. The code is available at https://github.com/hzwer/ICCV2019-LearningToPaint.

연구 동기 및 목표

대상 이미지를 순서가 있는 스트로크 시퀀스로 분해하여 캔버스에 이미지를 재현할 수 있도록 에이전트를 만들다.
페인팅을 위한 엔드투엔드, 모델 기반 DRL 학습이 가능하도록 differentiable neural renderer를 개발하다.
연속적인 스트로크 파라미터와 긴 시계열 계획을 다루어 텍스처가 풍부한 이미지를 재현하다.
인간 스트로크 데이터 없이도 다양한 실세계 데이터셋에서 페인팅 품질을 입증하다.

제안 방법

스트로크 파라미터를 나타내는 연속 행위 공간을 갖는 Markov Decision Process로 페인팅 프로세스를 모델링한다.
differentiable neural renderer가 전이 역학과 보상을 제공하는 모델 기반 DDPG 프레임워크를 사용한다.
그림과 대상 이미지 간의 유사성을 측정하기 위해 WGAN-기반 판별기를 통한 보상을 정의한다.
훈련 단계당 여러 스트로크를 예측하는 Action Bundle 전략을 적용하고 그에 따라 할인 인자를 조정한다.
스트로크를 제어점, 두께, 투명도, RGB 색상으로 구성된 2차 베지어 곡선으로 표현하고, differentiable neural renderer에 의해 렌더링한다.
픽셀 수준의 현실감을 높이고 전체 페인팅 품질을 향상시키기 위해 판별기(discriminator)와 크리틱(critic)을 포함한 적대적 학습으로 훈련한다.

실험 결과

연구 질문

RQ1모델 기반 DRL 에이전트가 대상 이미지를 수십에서 수백 개의 스트로크로 분해하여 캔버스에 이미지를 재현하도록 학습할 수 있는가?
RQ2 differentiable neural renderer와 모델 기반 계획의 사용이 모델 프리 접근법보다 페인팅 품질과 수렴 속도를 개선하는가?
RQ3보상 설계(WGAN 기반 vs L2)가 생성된 페인팅의 현실감과 정밀도에 미치는 영향은 무엇인가?
RQ4스트로크 수와 Action Bundle 설정이 점진적으로 복잡해지는 데이터셋에서 성능에 어떤 영향을 미치는가?
RQ5MNIST, SVHN, CelebA, ImageNet과 같은 다양한 데이터셋에서 방법의 일반화 성능은 어느 정도인가?

주요 결과

모델 기반 DDPG 에이전트가 모델 프리 변형들보다 페인팅 충실도에서 상당히 우수하며, CelebA 테스트에서 PatchQ를 사용한 DDPG보다 ell2 거리가 약 5배 작고 원래 DDPG보다 20배 작다.
WGAN 기반 보상은 더 풍부한 질감을 제공하며 테스트 데이터에서 순수한 L2 보상보다 낮은 ell2 손실을 달성할 수 있다.
스트로크 수를 늘리면 텍스처가 풍부한 이미지의 페인팅 품질이 향상된다(예: 200 vs 400 vs 1000 스트로크).
매 단계당 5개의 스트로크를 묶은 Action Bundle은 학습 속도와 계획 능력 사이에서 유리한 트레이드오프를 제공한다.
본 방법은 여러 스트로크 디자인(2차 베지어 곡선, 직선, 삼각형, 원)을 다루며 숫자 데이터에서 자연 풍경에 이르기까지 다양한 데이터셋에서 시각적으로 유사한 결과를 생성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.