Skip to main content
QUICK REVIEW

[論文レビュー] Network Fusion for Content Creation with Conditional INNs.

Robin Rombach, Patrick Esser|arXiv (Cornell University)|May 27, 2020
Generative Adversarial Networks and Image Synthesis参考文献 35被引用数 3
ひとこと要約

本稿では、微調整なしに事前学習済みのタスク固有モデル(例:テキスト用のBERT、画像用のBigGAN)を、再訓練を伴わずに新しいコンテンツ生成タスク(例:テキストから画像への生成)に再利用できる、条件付き可逆フロー(INN)を用いたネットワーク融合手法を提案する。1人の専門家モデルの隠れ表現を、もう1人の専門家モデルの条件付きで生成モデルとして学習することで、マルチモーダル間で効率的で制御可能かつリソース消費が少ないコンテンツ合成を実現する。

ABSTRACT

Artificial Intelligence for Content Creation has the potential to reduce the amount of manual content creation work significantly. While automation of laborious work is welcome, it is only useful if it allows users to control aspects of the creative process when desired. Furthermore, widespread adoption of semi-automatic content creation depends on low barriers regarding the expertise, computational budget and time required to obtain results and experiment with new techniques. With state-of-the-art approaches relying on task-specific models, multi-GPU setups and weeks of training time, we must find ways to reuse and recombine them to meet these requirements. Instead of designing and training methods for controllable content creation from scratch, we thus present a method to repurpose powerful, existing models for new tasks, even though they have never been designed for them. We formulate this problem as a translation between expert models, which includes common content creation scenarios, such as text-to-image and image-to-image translation, as a special case. As this translation is ambiguous, we learn a generative model of hidden representations of one expert conditioned on hidden representations of the other expert. Working on the level of hidden representations makes optimal use of the computational effort that went into the training of the expert model to produce these efficient, low-dimensional representations. Experiments demonstrate that our approach can translate from BERT, a state-of-the-art expert for text, to BigGAN, a state-of-the-art expert for images, to enable text-to-image generation, which neither of the experts can perform on its own. Additional experiments show the wide applicability of our approach across different conditional image synthesis tasks and improvements over existing methods for image modifications.

研究の動機と目的

  • 再訓練や微調整を必要とせず、計算コストと専門知識の壁を低く抑えた制御可能で準自動的なコンテンツ生成を可能にすること。
  • タスク固有のモデルが新しいコンテンツ生成タスクに容易に再利用できないという制限を克服すること。
  • 事前学習済みの専門家モデルを再利用することで、学習時間とリソース要件を削減し、初期学習から訓練するのを避けること。
  • 事前学習済みモデルの隠れ表現のみを用いて、テキストから画像への多様なモダリティ間変換を可能にすること。
  • 既存手法よりも柔軟性とパフォーマンスに優れた一般化可能な条件付き画像生成フレームワークを提供すること。

提案手法

  • 事前学習済み専門家モデルの隠れ表現間の翻訳タスクとしてコンテンツ生成を定式化すること。
  • 条件付き可逆フロー(INN)を用いて、一方の専門家モデルの隠れ表現の生成分布を、もう一方の専門家モデルの条件付きでモデル化すること。
  • ソースおよびターゲット専門家モデルから抽出したペア化された隠れ表現を用いてINNを学習すること。
  • 低次元かつ事前に計算済みの隠れ表現に限定して作業することで、既存モデルの計算リソースを最大限に再利用すること。
  • 訓練済みINNを活用して未学習の入力から出力を生成することで、ゼロショット転送を可能にすること。
  • 同じフレームワークを異なる専門家ペアに適応することで、多様な条件付き画像生成タスクをサポートすること。

実験結果

リサーチクエスチョン

  • RQ1微調整や再訓練を伴わず、事前学習済みのタスク固有モデルを新しいコンテンツ生成タスクに再利用できるか。
  • RQ2隠れ表現の条件付きINNベースの翻訳が、テキストから画像へのようなマルチモーダル生成をどの程度効果的に可能にするか。
  • RQ3この手法は、既存のアプローチと比較して、画像変更および条件付き生成タスクで競争力のあるパフォーマンスを達成できるか。
  • RQ4コンテンツ生成における計算コストと専門知識の壁をどの程度低減できるか。
  • RQ5このアプローチは、異なるモデルアーキテクチャーやコンテンツ生成シナリオにどの程度一般化可能か。

主な発見

  • BERT(テキスト専門家)とBigGAN(画像専門家)を融合させることで、単体では実行できないテキストから画像への生成が成功した。
  • 条件付き画像生成において、柔軟性と制御性の面で既存手法を上回る競争力のある結果が得られた。
  • 実験により、テキストから画像への翻訳を超えて、多様な条件付き画像生成タスクへも一般化可能であることが示された。
  • 隠れ表現の使用により、追加の学習を最小限に抑え、計算コストを低減した効率的な推論が可能になった。
  • 微調整やマルチGPUトレーニングを必要とせず、事前学習済みモデルを再利用することで、低リソースな実験が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。