[논문 리뷰] Synthesizing Programs for Images using Reinforced Adversarial Learning
SPIRAL은 그래픽 엔진으로 이미지를 렌더링하기 위해 시각적 프로그램을 생성하는 적대적 강화 에이전트를 훈련시키고, 정책 학습을 안내하기 위한 보상으로 Wasserstein GAN 구별기를 사용하는 비지도, 엔드투엔드 설정에서 작동한다.
Advances in deep generative networks have led to impressive results in recent years. Nevertheless, such models can often waste their capacity on the minutiae of datasets, presumably due to weak inductive biases in their decoders. This is where graphics engines may come in handy since they abstract away low-level details and represent images as high-level programs. Current methods that combine deep learning and renderers are limited by hand-crafted likelihood or distance functions, a need for large amounts of supervision, or difficulties in scaling their inference algorithms to richer datasets. To mitigate these issues, we present SPIRAL, an adversarially trained agent that generates a program which is executed by a graphics engine to interpret and sample images. The goal of this agent is to fool a discriminator network that distinguishes between real and rendered data, trained with a distributed reinforcement learning setup without any supervision. A surprising finding is that using the discriminator's output as a reward signal is the key to allow the agent to make meaningful progress at matching the desired output rendering. To the best of our knowledge, this is the first demonstration of an end-to-end, unsupervised and adversarial inverse graphics agent on challenging real world (MNIST, Omniglot, CelebA) and synthetic 3D datasets.
연구 동기 및 목표
- 라벨이 없는 프로그램-이미지 쌍으로부터 구조화된 시각 표현을 학습하여 확장 가능한 역 그래픽스를 가능하게 한다.
- 렌더러가 실행하는 그래픽 프로그램 조각을 출력하는 정책을 개발하여 이미지를 생성한다.
- 비지도 학습 없이 강화 학습을 이용해 생성된 렌더링을 실제 이미지와 정렬시키기 위해 적대적 학습을 활용한다.
- 실세계 및 합성 데이터셋에 걸친 적용 가능성을 보여주고 해석 가능한 장면 구조를 회복한다.
제안 방법
- 일련의 프로그램 명령 a 를 이미지로 변환하는 블랙박스 렌더링 시뮬레이터 R을 사용한다.
- 커맨드 시퀀스를 생성하기 위해 순환 정책 네트워크 π 로 p_a 를 모델링한다.
- 실제 이미지와 렌더링된 이미지를 구분하는 Wasserstein GAN 목적을 구별기 D 와 함께 채택하여 정책에 보상을 제공한다.
- 구별기의 점수를 최종 보상으로 사용하여 정책 경사 강화 학습(A2C)으로 π 를 훈련한다.
- 행동자들이 궤적을 생성하는 액터들, π 를 업데이트하는 정책 학습기, D 를 업데이트하는 구별 학습기로 구성된 분산 학습을 구현한다.
실험 결과
연구 질문
- RQ1적대적으로 학습된 강화 학습 에이전트가 감독 없이도 해석 가능한 시각적 프로그램을 발견하여 현실적인 이미지를 렌더링할 수 있는가?
- RQ2구별기의 출력을 보상으로 사용하는 것이 직접 픽셀 단위 최적화보다 수렴 속도와 재구성 품질을 향상시키는가?
- RQ3이 접근법은 실제 데이터셋(MNIST, Omniglot, CelebA)와 합성 3D 장면 데이터셋에 얼마나 잘 확장되는가?
- RQ4대상 이미지나 장면에 조건화한 경우가 조건부 프로그램 합성에 미치는 영향은 무엇인가?
주요 결과
- SPIRAL 에이전트는 MNIST, Omniglot, CelebA 및 MuJoCo 기반의 3D 장면에서 이미지를 재구성하거나 샘플링하는 해석 가능한 스트로크와 장면 설명을 생성할 수 있다.
- 구별기 기반 보상으로 학습하면 학습 속도가 빨라지고 많은 경우 직접 L2 최소화보다 최종 픽셀 단위 오차가 더 작아진다.
- 조건부 생성은 대상 이미지를 재구성하고, 기본 스트로크 시퀀스를 회복하며, 복잡한 장면을 해석할 수 있지만 데이터셋에 따라 난이도가 다르게 나타난다.
- 구별기 보상은 L2 보상이 합리적인 재구성을 생성하지 못하는 설정(예: Omniglot 및 CelebA)에서 학습을 가능하게 한다.
- 비동기 액터와 재생 버퍼를 갖춘 IMPALA-영감의 분산 설정은 미분 불가능한 렌더러에 대한 확장 가능한 학습을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.