QUICK REVIEW

[論文レビュー] Pretraining is All You Need for Image-to-Image Translation

Tengfei Wang, Ting Zhang|arXiv (Cornell University)|May 25, 2022

Generative Adversarial Networks and Image Synthesis被引用数 90

ひとこと要約

本論文は、事前学習済みの拡散モデルが多様な画像-to-画像翻訳タスクに対する普遍的な生成事前知識として機能し得ることを示しており、タスク固有のアダプタと学習の工夫により、複数のベンチマークで最先端の成果を出すことができる。

ABSTRACT

We propose to use pretraining to boost general image-to-image translation. Prior image-to-image translation methods usually need dedicated architectural design and train individual translation models from scratch, struggling for high-quality generation of complex scenes, especially when paired training data are not abundant. In this paper, we regard each image-to-image translation problem as a downstream task and introduce a simple and generic framework that adapts a pretrained diffusion model to accommodate various kinds of image-to-image translation. We also propose adversarial training to enhance the texture synthesis in the diffusion model training, in conjunction with normalized guidance sampling to improve the generation quality. We present extensive empirical comparison across various tasks on challenging benchmarks such as ADE20K, COCO-Stuff, and DIODE, showing the proposed pretraining-based image-to-image translation (PITI) is capable of synthesizing images of unprecedented realism and faithfulness.

研究の動機と目的

大規模な事前学習が多様なタスクにわたる条件付き画像合成を向上させることを動機づけ、実証する。
事後翻訳タスクの意味的潜在事前知識として、事前学習済み拡散モデル（GLIDE）を活用する。
入力条件を事前学習済み潜在空間に写像する実用的な2段階微調整プロトコルを開発する。
敵対的拡散アップサンプラーと知覚的/敵対的損失によって生成品質を向上させる。
条件付け忠実度とサンプル品質を向上させるための正規化された classifier-free ガイダンスを提案する。

提案手法

多様なテキスト-画像ペアで訓練された生成的事前拡散 prior（GLIDE）をデコーダとして用いる。
入力（例：セグメンテーションマスク、スケッチ、深度マップ）を事前学習済み潜在空間へ写像するタスク特有のエンコーダーヘッドを接続する。
2段階微調整: (1) デコーダを固定したままエンコーダを訓練; (2) エンコーダとデコーダをエンドツーエンドで微調整。
高解像度生成時に劣化を伴う敵対的拡散アップサンプラーと知覚的/敵対的損失を用いて質感を改善。
条件付きサンプリング時の平均/分散シフトを是正し、飽和なしにより強いガイダンスを可能にする正規化された classifier-free ガイダンスを導入。
64x64 のベース出力から 256x256 の画像を生成する拡散ベースのアップサンプリングを用いた階層的生成設定を採用。

実験結果

リサーチクエスチョン

RQ1単一の事前学習済み拡散モデルは、複数の画像-to-画像翻訳タスクに対する普遍的な事前知識として機能し得るか。
RQ2トレーニング戦略（2段階ファインチューニング、敵対的アップサンプリング、知覚的/敵対的損失）は翻訳品質を最大化するか。
RQ3標準ベンチマーク（ADE20K, COCO-Stuff, DIODE）におけるPITIの、タスク特化またはScratchから訓練したベースラインとの比較はどうか。
RQ4事前学習は限定的な下流データ（Few-shotシナリオ）でも高品質な結果を可能にするか。

主な発見

方法	ADE20K	COCO (マスク)	Flickr (マスク)	COCO (スケッチ)	Flickr (スケッチ)	DIODE
Pix2PixHD	35.3	37.5	26.1	27.1	16.8	18.2
SPADE	18.9	15.0	17.4	48.9	29.5	17.0
OASIS	14.8	8.8	10.5	-	-	-
Ours (Scratch)	16.3	13.0	10.6	13.0	9.4	13.9
Ours	8.9	5.2	6.1	8.8	6.0	11.5

PITIは、タスクとデータセットを横断して、Scratchから訓練されたベースラインより大幅に優れている。
2段階のファインチューニングは最高の結果をもたらし、事前学習済み事前知識を維持しつつ意味の整合性を実現する。
敵対的拡散アップサンプリングと知覚的/敵対的損失は、高解像度出力の質感と細部を著しく改善する。
正規化された classifier-free ガイダンスは、強いガイダンス下で有害な平均/分散シフトを導入せずにサンプル品質を改善する。
ADE20K、COCO-Stuff、DIODEで、PITIはタスク特化ベースラインおよびScratchベースラインの両方に対して、最先端に近いFID改善を達成。Table 1に示す結果は顕著な改善を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。