[論文レビュー] Learning What and Where to Draw
GAWWNは、描く内容と描く場所の両方を条件にして画像を合成する方法を学習し、境界ボックスとキーポイントによるテキストおよび位置制御の画像生成を可能にします。GANsにおいて内容と位置を分解することで、128x128の鳥の画像とポーズ条件付きの人間画像を実証します。
Generative Adversarial Networks (GANs) have recently demonstrated the capability to synthesize compelling real-world images, such as room interiors, album covers, manga, faces, birds, and flowers. While existing models can synthesize images based on global constraints such as a class label or caption, they do not provide control over pose or object location. We propose a new model, the Generative Adversarial What-Where Network (GAWWN), that synthesizes images given instructions describing what content to draw in which location. We show high-quality 128 x 128 image synthesis on the Caltech-UCSD Birds dataset, conditioned on both informal text descriptions and also object location. Our system exposes control over both the bounding box around the bird and its constituent parts. By modeling the conditional distributions over part locations, our system also enables conditioning on arbitrary subsets of parts (e.g. only the beak and tail), yielding an efficient interface for picking part locations. We also show preliminary results on the more challenging domain of text- and location-controllable synthesis of images of human actions on the MPII Human Pose dataset.
研究の動機と目的
- 内容(何を)と位置(どこを)を分離する、制御可能な画像合成フレームワークの動機づけと開発。
- 局所的な注釈(境界ボックス、キーポイント)を活用して、GAN生成画像のリアリズムと制御を向上させる。
- 鳥と人間のための自然言語説明と空間制約からの条件付き生成を可能にする。
- 生成時に部位の位置と部分的なキーポイント制約を指定する、ユーザーフレンドリーなインターフェースを提供する。
提案手法
- テキストと空間制約の両方で生成器と識別器を条件付けする Generative Adversarial What-Where Networks (GAWWN) を紹介する。
- 空間マスキングと空間トランスフォーマを用いてテキスト特徴を境界ボックスに歪ませることで境界ボックス条件付けを実装する。
- 部位位置をマルチチャネル空間マップとして符号化し、関連部位に注意を向けるゲーティング機構を用いてキーポイント条件付けを実装する。
- テキストからキーポイントと画像の双方を生成するようGAWWNを拡張し、スイッチベースのキーポイント条件付けフレームワークを用いる。
- 事前学習済みの画像エンコーダとテキストエンコーダを用い、堅牢なテキスト条件付けのためにマルチキャプション平均化を用いた条件付きGAN目的で訓練する。
実験結果
リサーチクエスチョン
- RQ1GANは非正式なテキスト記述に条件付けられた高品質な画像を生成しつつ、明示的な空間制約(境界ボックスやキーポイント)を遵守できるか?
- RQ2オブジェクト部位(キーポイント)を条件付けることは、境界ボックス条件付けだけと比べてリアリズムと制御性を向上させるか?
- RQ3見たことのないテキストから一貫したキーポイントと画像を生成でき、完全な手動ラベリングの必要性を減らせるか?
- RQ4鳥(CUB)から人間ポーズ(MPII)への品質と制御性の点での適用移行はどの程度うまくいくか?
主な発見
- 128×128の鳥画像は、テキストと位置に条件付けられた結果、従来の64×64の結果より高いリアリズムを達成する。
- 空間マスク付き境界ボックス条件付けは、生成された場面内の物体の配置とサイズを制御可能にする。
- キーポイント条件付けは姿勢と物体の向きを制御でき、物体を縮小、移動、または引き伸ばすのに使用できる。
- テキストからの実データと合成キーポイントの両方を用いた画像生成は視覚的品質を保持し、部位を指定する実用的なユーザーインターフェースを実証する。
- このアプローチは人間の動作イメージで定性的な結果をもたらし、ぼやけるものの認識可能な出力と、ポーズ駆動の合成による動画の可能性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。