[論文レビュー] Learning to Generate Images of Outdoor Scenes from Attributes and Semantic Layouts
本論文はAL-CGANを導入し、条件付きGANでセマンティックレイアウトと一時属性から屋外シーンを生成し、制御可能で多様なシーン合成を実現する。
Automatic image synthesis research has been rapidly growing with deep networks getting more and more expressive. In the last couple of years, we have observed images of digits, indoor scenes, birds, chairs, etc. being automatically generated. The expressive power of image generators have also been enhanced by introducing several forms of conditioning variables such as object names, sentences, bounding box and key-point locations. In this work, we propose a novel deep conditional generative adversarial network architecture that takes its strength from the semantic layout and scene attributes integrated as conditioning variables. We show that our architecture is able to generate realistic outdoor scene images under different conditions, e.g. day-night, sunny-foggy, with clear object boundaries.
研究の動機と目的
- 制御可能な条件の下で自動的な屋外シーン合成を動機付ける。
- セマンティックレイアウトを用いてオブジェクトの境界と位置を指示するモデルを開発する。
- 天候や時刻などのグローバルな外観を制御するために Transient Attributes を組み込む。
- レイアウト条件付けと属性条件付けを結合することで、よりシャープで詳細な画像を得られることを示す。
- レイアウトに要素を追加して段階的なシーン編集を実演する。
提案手法
- AL-CGANを提案する。ここで G(z, s, a) はノイズ z、セマンティックレイアウト s、属性ベクトル a を取り画像を生成する条件付きGANである。
- Siamese 判別器を用い、実画像/生成画像とそれに対応する条件付けレイアウトおよび属性を同時に処理し、特徴を結合するフュージョン段階を設ける。
- ADE20KとTransient Attributesデータセットを組み合わせた学習で mini-batch SGD および Adam 最適化器を用い、出力画像は 128x128。
- シーンレイアウトを 19 個の非重複二値マップとラベルなしマップとして表現し、属性を空間的位置に跨ってタイル状に分布させる。
- AL-CGAN を scene-label conditioned GAN およびアブレーションと比較し、レイアウト条件付けと属性条件付けを追加する利点を示す。
実験結果
リサーチクエスチョン
- RQ1dense semantic layouts and transient attributesを条件とするGANが現実的な屋外シーンを生成できるか?
- RQ2レイアウト条件付けと transient attributes の組み合わせは現実感と境界の明確さを改善するか?
- RQ3潜在ベクトル、レイアウト、属性を変えると生成シーンの多様性と制御性にどう影響するか?
- RQ4モデルはシーン要素を順次追加して生成画像を refine できるか?
- RQ5学習された表現は訓練時に見られなかった新規レイアウトへ一般化するか?
主な発見
- AL-CGAN はセマンティックレイアウト領域内で鋭いオブジェクト境界と現実的な色分布を生成する。
- transient attributes を変えると、固定レイアウトで昼夜、天候、照明の移行が妥当になる。
- レイアウトと属性の両方の条件付けを追加すると、どちらか一方の条件付けよりも多様で詳細な画像が得られる。
- 粗いレイアウトへ段階的にシーン要素を追加すると、徐々に詳細で一貫性のあるシーンになる。
- 最近傍解析から、生成画像は多様で訓練データの単なる記憶ではないことが示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。