Skip to main content
QUICK REVIEW

[論文レビュー] ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis

Patrick Esser, Robin Rombach|arXiv (Cornell University)|Aug 19, 2021
Generative Adversarial Networks and Image Synthesis参考文献 68被引用数 51
ひとこと要約

ImageBARTは、粗から細への階層的フレームワークを導入し、多項拡散プロセスを反転させて自己回帰型画像生成に双方向コンテキストを注入し、高忠実度の生成と柔軟な局所編集を実現します。

ABSTRACT

Autoregressive models and their sequential factorization of the data likelihood have recently demonstrated great potential for image representation and synthesis. Nevertheless, they incorporate image context in a linear 1D order by attending only to previously synthesized image patches above or to the left. Not only is this unidirectional, sequential bias of attention unnatural for images as it disregards large parts of a scene until synthesis is almost complete. It also processes the entire image on a single scale, thus ignoring more global contextual information up to the gist of the entire scene. As a remedy we incorporate a coarse-to-fine hierarchy of context by combining the autoregressive formulation with a multinomial diffusion process: Whereas a multistage diffusion process successively removes information to coarsen an image, we train a (short) Markov chain to invert this process. In each stage, the resulting autoregressive ImageBART model progressively incorporates context from previous stages in a coarse-to-fine manner. Experiments show greatly improved image modification capabilities over autoregressive models while also providing high-fidelity image generation, both of which are enabled through efficient training in a compressed latent space. Specifically, our approach can take unrestricted, user-provided masks into account to perform local image editing. Thus, in contrast to pure autoregressive models, it can solve free-form image inpainting and, in the case of conditional models, local, text-guided image modification without requiring mask-specific training.

研究の動機と目的

  • 自己回帰型画像生成における単方向注意の偏りを動機づけ、双方向コンテキストを導入して克服する。
  • 画像を圧縮し、ARステップにグローバルコンテキストを提供する固定多項拡散プロセスを用いた粗から細への階層モデルを開発する。
  • マスクの特別な訓練を必要とせず、柔軟な条件付き画像合成と局所的でユーザー主導の編集を可能にする。
  • 離散潜在空間で拡散過程を反転するマルコフ連鎖を訓練して高忠実度生成を達成する。
  • 多様なデータセットにおいて改良された修正能力と競争力のあるサンプル品質を実証する。

提案手法

  • データを x_0、粗い表現を x_T として階層的な分布列 p^t_theta を学習し、x_{0:T} を形成する。x_{t-1} ~ p^{t-1}_{theta}(x_{t-1}|x_t)。
  • 前方の多項拡散 q_theta を用いて x_{t-1} を徐々に x_t に汚染し、扱いやすい KL界と ELBO ベースの訓練目的(Eq. 2)を可能にする。
  • 第一段階(L1)では、ベクトル量子化オートエンコーダを用いて画像の離散的で圧縮された表現を学習し、再構成損失に加えて対向的リアリズム(L_rec, L_adv)。
  • 以降の段階(L_t, t>1)は、粗い表現から得られるグローバルコンテキストを活用してより細かなレベルをモデル化し、x_t に条件づけられ、エンコーダの表現(クロスアテンション)を注目している。
  • 各逆過程 p^{t-1}_{theta}(x_{t-1}|x_t) をエンコーダ-デコーダー変換器で自己回帰的にモデル化し、すべての逆ステップ間での重み共有を必要とせず、双方向コンテキストを実現する。
  • 前方過程 q_theta を固定 beta_t の二項/多項拡散ステップで処理し、t>2 の場合は解析的な KL 項を、t=2 の場合はモンテカルロ推定を可能にする(Eq. 7–8)。
  • 損失の重み付けの厳しさと勾配ノイズを回避するため、階層間を並行して訓練し、データセットごとに T を選択する(例:FFHQ で T=3、ImageNet 条件付けで T=5)。
  • p^{t-1}_{theta} の前にトークンを付けて柔軟な条件付けを可能にし、クラス条件付きおよびテキストから画像への合成をサポートする(セクション4.2)。

実験結果

リサーチクエスチョン

  • RQ1双方向のグローバルな文脈を、扱いやすい密度分解を壊さずに自己回帰型画像合成にどのように組み込めるか?
  • RQ2粗から細への離散階層拡散フレームワークは、純粋な AR やピクセル空間の拡散モデルよりも画像忠実度と編集能力を向上させるか?
  • RQ3マスク専用の訓練を必要とせず、柔軟な条件付け(クラスラベルとテキスト)と自由形式の局所編集(マスクベース)をサポートできるか?
  • RQ4このような階層的設定における拡散ステップ数、モデル容量、サンプリング速度のトレードオフは何か?
  • RQ5条件なしおよび条件付き生成タスクで、さまざまなデータセットに対してこの手法はどのように性能を発揮するか?

主な発見

  • ImageBART は粗から細への階層を通じてグローバルコンテキストを徐々に取り入れることにより高忠実度な画像生成を実現し、純粋な自己回帰モデルより一貫性を向上させる。
  • 多項拡散ベースの前方過程と自己回帰的逆パスは、効率的な訓練を可能にし、膨大な文脈統合を prohibitive サンプル複雑さなしに許す。
  • モデルは柔軟な条件付け(クラスラベルとテキスト)をサポートし、自由形式のマスクベースのインペインティングを含む局所編集を可能にし、マスク専用のタスク訓練を必要としない。
  • 実証的な結果は、複数のデータセットで従来の尤度ベースおよびスコアベース手法と比較して競争力があるか優れていることを示し、特に複雑なシーン(例:ImageNet、LSUN 変種)で顕著。
  • 拡散ステップ数(T)を調整するとトレードオフが明らかになり、ステップ数が増えるほど修正とグローバル一貫性が向上するが、中程度の T を超える無条件生成では利得が減少する。
  • 経験的に、レベル間で独立して訓練をスケールさせ、各レベルごとに固定の前方拡散を用いることで並行最適化と安定訓練を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。