Skip to main content
QUICK REVIEW

[論文レビュー] Few-shot Image Generation with Elastic Weight Consolidation

Yijun Li, Richard Zhang|arXiv (Cornell University)|Dec 4, 2020
Image Processing Techniques and Applications被引用数 26
ひとこと要約

本論文は、エラスティックウェイトコンソリデーション(EWC)を用いて、事前学習済みの生成モデルを新しいターゲットドメインに適応させる few-shot 画像生成手法を提案する。EWCにより、ソースドメインの多様性を保持しながら、たった数個のターゲット例に適合させる。フィッシャー情報に基づくパラメータ更新の正則化により、10個以下のターゲット例ですら、高品質で多様な画像を生成でき、特に芸術的でデータが少ない設定において、先行手法を上回るクロスドメイン転送性能を発揮する。

ABSTRACT

Few-shot image generation seeks to generate more data of a given domain, with only few available training examples. As it is unreasonable to expect to fully infer the distribution from just a few observations (e.g., emojis), we seek to leverage a large, related source domain as pretraining (e.g., human faces). Thus, we wish to preserve the diversity of the source domain, while adapting to the appearance of the target. We adapt a pretrained model, without introducing any additional parameters, to the few examples of the target domain. Crucially, we regularize the changes of the weights during this adaptation, in order to best preserve the information of the source dataset, while fitting the target. We demonstrate the effectiveness of our algorithm by generating high-quality results of different target domains, including those with extremely few examples (e.g., <10). We also analyze the performance of our method with respect to some important factors, such as the number of examples and the dissimilarity between the source and target domain.

研究の動機と目的

  • ターゲットドメインの例が僅かにしか入手できない低データ環境において、高品質な画像生成を可能にすること。
  • パrameterを追加せずに、事前学習済みの生成モデルを新しいターゲットドメインに適応させ、ソースドメインの多様性を保持すること。
  • パrameterの重要度に基づいて選択的に重み更新を正則化することで、few-shot生成における過剰適合を是正すること。
  • 芸術的で、ソースとターゲットが著しく異なるドメインを含む多様なドメインにおいて、手法の性能を評価すること。
  • ターゲット例の数とドメインの相違度が生成品質に与える影響を分析すること。

提案手法

  • EWCを用いて、新しいターゲットドメインに事前学習済みのGAN(例:StyleGAN)の重みを微調整し、新たなパrameterを追加せずに適応させる。
  • 凍結された識別器を用いてフィッシャー情報の推定を行い、適応過程での重要な重みの正則化を可能にする。
  • EWC正則化を適用して、重要度の高いパラメータの変更を制約し、ソースドメインの多様性を保持する。
  • ソースモデルと適応済みモデルの両方で同じ潜在コードを用いることで、ポーズやヘアスタイルなどの属性レベルの対応関係を維持する。
  • 少数のターゲット画像のみで適応モデルを学習し、ターゲットドメインの外観に一致する多様で現実的なサンプルの生成を目的とする。
  • ソースモデルと適応済みモデル間の対応関係を活用して、実際のアノテーションなしに合成ペアデータを生成し、下流タスクに活用する。

実験結果

リサーチクエスチョン

  • RQ1EWCに基づく重み正則化は、わずか数例のターゲット例での適応において、ソースドメインの多様性を効果的に保持できるか?
  • RQ2ターゲット例の数が生成画像の品質と多様性にどのように影響するか?
  • RQ3ソースとターゲットのドメイン間の相違度が、適応手法の性能に与える影響は何か?
  • RQ4顔から風景へのような意味論的に著しく異なるソースドメインからの転送において、適応済みモデルがどれほど意味的に意味のある画像を生成できるか?
  • RQ5ソースモデルと適応済みモデルの生成結果の対応関係を活用して、実際のアノテーションなしにペアデータを合成できるか?

主な発見

  • 本手法は、10個のターゲット例ですら、芸術的ドメインを含む複数のターゲットドメインにおいて、高品質で多様な画像を生成する。
  • 同じ潜在コードから生成する際、ポーズ、ヘアスタイル、顔の表情といった重要な属性がソースドメインから保持されており、構造的対応関係が明確に示されている。
  • FFHQソースに最も近いCelebA-Female顔面ドメインにおいて、生成画像は最も現実的で多様であり、強力な転送性能を示している。
  • 顔から色鉛筆風風景への適応では、モデルが意味的構造を変更できず(例:顔の輪郭が残存)、著しく異なるドメインでは限界が顕在している。
  • 猫とCelebA-Femaleデータセットからの生成画像を検出する一般化可能なCNN検出器を用いた結果、平均精度が94.9%および99.6%に達し、他のGANベース手法と同等の検出可能性を示している。
  • アブレーションスタディにより、EWC正則化が正則化なしのベースラインの微調整に比べ、生成品質と多様性が顕著に向上することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。