[論文レビュー] Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
Drag GAN は、特徴ベースのモーション指導と GAN ベースのポイント追跡アプローチを用いて、ハンドル点をターゲット位置へドラッグすることで、GAN生成画像を対話的かつ正確に点ベースで操作できる。
Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
研究の動機と目的
- 手動アノテーションや3Dプリオリに頼らず、GAN の柔軟で正確かつ汎用的な制御可能性を達成することを目的とする。
- 画像上のターゲット点へハンドル点をドラッグして、複数点のユーザー指定編集を可能にする。
- 追加のネットワークを用いず、識別的なGAN特徴を活用したモーション監視と点追跡を開発する。
- マスクによる領域特定編集をサポートし、GAN inversion を通じて実画像の編集を可能にする。
- 多様なカテゴリ(動物、人間、車、風景)における有効性を示し、既存手法と比較する。
提案手法
- 識別的 GAN 特徴マップ(StyleGAN2 の第6ブロック)を編集空間として用い、潜在コード最適化を介してハンドル点をターゲットへ動かすためにシフトされたパッチ損失を適用する。
- 外観を保持するために最初の約6層のみを更新して、少量のステップのモーション監視により潜在コード w(W または W+)を最適化し、ハンドル点をターゲットへ押し進める。
- 初期点特徴 F0 を用いて現在の GAN 特徴空間 F' で最近傍探索によりハンドル点を追跡し、追加の追跡ネットワークなしで堅牢かつ高速な点追跡を実現する。
- すべてのハンドル点が対応するターゲットに到達するまで、モーション監視と点追跡を反復し、編集を制約するためのユーザー定義可能な可動領域マスクをオプションとして付与する。
- 対話型編集のための GUI を提供し、実画像の編集を GAN inversion(例:PTI)を通じて実現し、実写真を GAN 潜在空間へマッピングして操作可能にする。

実験結果
リサーチクエスチョン
- RQ1ドメイン特有の事前知識や追加のネットワークに頼らず、GAN 生成画像上で多点・高精度・領域認識の点ベース操作を実現できるか?
- RQ2モーション監視と点追跡の両方に GAN の識別的特徴空間を活用することで、正確で効率的な対話的編集が得られるか?
- RQ3Drag GAN は、さまざまな物体カテゴリーにおける精度と現実感の点で、従来手法(例えば UserControllableLT、RAFT、PIPs)とどのように比較されるか?
- RQ4実画像をまず GAN 潜在空間へ逆変換して点ベースの操作を適用することで、実画像を編集できるか?
- RQ5可動領域をマスクすることが、編集の安定性と忠実性に与える影響は何か?
主な発見
- Drag GAN は、動物・人間・車・風景にわたってハンドル点をターゲットへ導くことにより、正確な操作を達成する。
- 顔ランドマーク操作と対応ペア画像再構成で、精度が高く画像品質(FIDの低下)を維持する点で、UserControllableLT を上回る。
- GAN特徴ベースの点追跡(F' における最近傍探索)は、GAN生成フレームにおいて RAFT や PIPs より追跡精度が高い。
- 可動領域をマスクすることで領域特異的編集が可能になり、マスクされていない領域は固定される。
- GAN inversion は実画像を GAN 潜在空間へマッピングして点ベースの編集を適用することで、実画像の編集を可能にする。
- 本手法は分布外外挿能力を一部示すが、訓練分布を超えて推し進めるとアーチファクトが生じる可能性がある。制限として、質感の乏しい領域での追跡の漂移や潜在的なプライバシー問題が含まれる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。