[논문 리뷰] Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
Drag GAN은 핸들 포인트를 목표 위치로 끌어당겨 특징 기반 모션 감독과 GAN 기반 포인트 추적 접근법을 이용하여 GAN으로 생성된 이미지를 인터랙티브하고 정밀하게 점 기반으로 조작합니다.
Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
연구 동기 및 목표
- 수동 주석이나 3D 사전지식에 의존하지 않고 GAN의 유연하고 정밀하며 일반화 가능한 제어 가능성을 달성하는 것을 목표로 한다.
- 드래그 핸들 포인트를 이미지의 목표 지점으로 끌어서 다지정 편집을 가능하게 한다.
- 추가 네트워크 없이도 판별 가능한 GAN 특징을 활용한 모션 감독 및 포인트 추적을 개발한다.
- 마스크를 통한 영역별 편집 지원 및 GAN 반전을 통한 실제 이미지 편집 가능성을 확보한다.
- 다양한 카테고리(동물, 인간, 자동차, 풍경)에서의 효율성을 입증하고 기존 방법과 비교한다.
제안 방법
- GAN의 판별적 특징 맵(StyleGAN2의 6번째 블록)을 편집 공간으로 사용하고, 잠재 코드 최적화를 통해 핸들 포인트를 목표로 이동시키기 위해 시프트된 패치 손실을 적용한다.
- 첫 약 6개의 레이어만 업데이트하여 외관을 보존하면서 핸들 포인트를 목표로 살짝 이동시키는 소폭 보정 모션 감독으로 W 또는 W+의 잠재 코드 w를 최적화한다.
- 초기 포인트 특징 F0를 사용하고 현재 GAN 특징 공간 F'에서 최근접 이웃 탐색으로 핸들 포인트를 추적하여 추가 추적 네트워크 없이도 견고하고 빠른 포인트 추적을 가능하게 한다.
- 모션 감독과 포인트 추적을 모든 핸들 포인트가 대응하는 목표에 도달할 때까지 반복하고, 필요에 따라 편집을 제약하는 사용자가 정의한 움직일 수 있는 영역 마스크를 사용할 수 있다.
- 인터랙티브 편집용 GUI를 제공하고 GAN 반전(예: PTI)을 통해 실제 이미지를 GAN 잠재 공간으로 매핑하여 편집을 가능하게 한다.

실험 결과
연구 질문
- RQ1도메인 특화 사전지식이나 추가 네트워크 없이도 GAN-생성 이미지에서 다점의 정밀하고 영역 인지적인 점 기반 조작이 가능할까?
- RQ2모션 감독과 포인트 추적 모두에 GAN 판별 특징 공간을 활용하는 것이 정확하고 효율적인 인터랙티브 편집을 제공할까?
- RQ3Drag GAN은 다양한 객체 카테고리에서 정밀도와 리얼리즘 측면에서 이전 방법들(예: UserControllableLT, RAFT, PIPs)과 어떻게 비교되는가?
- RQ4실제 이미지를 먼저 GAN 잠재 공간으로 반전시키고 포인트 기반 조작을 적용함으로써 편집할 수 있는가?
- RQ5이동 가능한 영역을 마스킹하는 것이 편집의 안정성과 충실도에 미치는 영향은 무엇인가?
주요 결과
- Drag GAN은 동물, 인간, 자동차, 풍경에 걸쳐 핸들 포인트를 목표로 이동시켜 정확한 조작을 달성한다.
- 얼굴 특징 점 조작 및 쌍 이미지 재구성에서 정밀도 면에서 UserControllableLT를 능가하고 이미지 품질(FID가 더 낮음)을 유지한다.
- GAN 특징 기반 포인트 추적(F'에서의 최근접 이웃)을 통해 GAN 생성 프레임에서 RAFT 또는 PIPs보다 더 높은 추적 정확도를 보인다.
- 이동 가능한 영역 마스킹은 영역별 편집을 가능하게 하며 마스킹되지 않은 영역은 고정된다.
- GAN 반전은 실제 이미지를 GAN 잠재 공간으로 매핑한 뒤 점 기반 편집을 적용하여 편집을 가능하게 한다.
- 이 방법은 분포 밖 확장 능력을 일부 보이나, 학습 분포를 넘겨 진행하면 아티팩트가 발생할 수 있으며, 한계로는 질감이 없는 영역의 추적 드리프트 및 잠재적 프라이버시 이슈를 포함한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.