[논문 리뷰] Learning What and Where to Draw
GAWWN은 무엇을 그리고 어디에 그릴지에 모두 조건을 두고 이미지를 합성하는 것을 학습하여 경계 상자와 키포인트로 텍스트 및 위치 제어가 가능한 이미지 생성이 가능하도록 한다. GAN에서 콘텐츠와 위치를 분해하여 128x128 Bird 이미지와 자세 조건의 인간 이미지를 시연한다.
Generative Adversarial Networks (GANs) have recently demonstrated the capability to synthesize compelling real-world images, such as room interiors, album covers, manga, faces, birds, and flowers. While existing models can synthesize images based on global constraints such as a class label or caption, they do not provide control over pose or object location. We propose a new model, the Generative Adversarial What-Where Network (GAWWN), that synthesizes images given instructions describing what content to draw in which location. We show high-quality 128 x 128 image synthesis on the Caltech-UCSD Birds dataset, conditioned on both informal text descriptions and also object location. Our system exposes control over both the bounding box around the bird and its constituent parts. By modeling the conditional distributions over part locations, our system also enables conditioning on arbitrary subsets of parts (e.g. only the beak and tail), yielding an efficient interface for picking part locations. We also show preliminary results on the more challenging domain of text- and location-controllable synthesis of images of human actions on the MPII Human Pose dataset.
연구 동기 및 목표
- 콘텐츠(무엇)와 위치(어디)를 분리하는 제어 가능한 이미지 합성 프레임워크를 동기 부여하고 개발한다.
- GAN 생성 이미지의 현실감과 제어를 향상시키기 위해 로컬 주석(경계 상자, 키포인트)을 활용한다.
- 새와 인간의 경우 텍스트 설명과 공간 제약으로 조건부 생성을 가능하게 한다.
- 생성 시 부분 위치 및 부분 키포인트 제약 조건을 사용자 친화적으로 지정하는 인터페이스를 제공한다.
제안 방법
- 생성자와 판별기를 텍스트 및 공간 제약으로 조건화하는 Generative Adversarial What-Where Networks(GAWWN)을 도입한다.
- 경계 상자 조건화를 공간 마스킹과 공간 변환기를 통해 텍스트 특성을 경계 상자로 왜곡하는 방식으로 구현한다.
- 부분 위치를 다채널 공간 맵으로 인코딩하고 관련 부위를 주의(attend)하도록 게이팅 메커니즘을 사용하는 방식으로 키포인트 조건화를 구현한다.
- 텍스트로부터 키포인트와 이미지를 함께 생성하기 위해 스위치 기반의 키포인트 조건화 프레임워크를 확장한다.
- 사전 학습된 이미지 및 텍스트 인코더와 다중 캡션 평균화를 활용한 조건부 GAN 목표로 학습한다.
실험 결과
연구 질문
- RQ1GAN이 비공식 텍스트 설명에 조건화되면서 명시적 공간 제약(경계 상자 또는 키포인트)을 동시에 준수하는 고품질 이미지를 생성할 수 있는가?
- RQ2객체 부위(키포인트)에 조건화하는 것이 단독 경계 상자 조건화보다 현실감과 제어성을 향상시키는가?
- RQ3모델이 보지 못한 텍스트에서 일관된 키포인트와 이미지를 생성할 수 있어 전체 수작업 레이블링의 필요성을 감소시키는가?
- RQ4조류(CUB)에서 인간 자세(MPII)로의 전이가 품질 및 제어성 측면에서 얼마나 잘 수행되는가?
주요 결과
- 텍스트와 위치로 조건화된 128×128 조류 이미지가 이전의 64×64 결과보다 더 높은 현실감을 달성한다.
- 공간 마스킹이 포함된 경계 상자 조건화는 생성된 장면 내에서 객체의 위치와 크기를 제어 가능하게 한다.
- 키포인트 조건화는 자세 및 물체가 향하는 방향에 대한 제어를 가능하게 하며, 물체를 줄이거나 이동시키거나 늘리는 데 사용할 수 있다.
- 텍스트에서 실제 키포인트와 합성 키포인트를 모두 생성하는 경우 시각적 품질을 유지하고 부품 지정을 위한 실용적인 사용자 인터페이스를 시연한다.
- 이 접근법은 인간의 동작 영상에서도 질적 결과를 제공하며, 모션 기반 합성으로 비디오 생산 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.