QUICK REVIEW

[論文レビュー] Few-Shot Unsupervised Image-to-Image Translation

Ming-Yu Liu, Xun Huang|arXiv (Cornell University)|May 5, 2019

Generative Adversarial Networks and Image Synthesis参考文献 53被引用数 80

ひとこと要約

FUNITを紹介する。少数ショット、教師なしの画像間翻訳フレームワークで、試験時にわずかなターゲットクラスの例しか用意しなくても、ソースクラスの画像を未 seenのターゲットクラスの類似画像へ翻訳する。

ABSTRACT

Unsupervised image-to-image translation methods learn to map images in a given class to an analogous image in a different class, drawing on unstructured (non-registered) datasets of images. While remarkably successful, current methods require access to many images in both source and destination classes at training time. We argue this greatly limits their use. Drawing inspiration from the human capability of picking up the essence of a novel object from a small number of examples and generalizing from there, we seek a few-shot, unsupervised image-to-image translation algorithm that works on previously unseen target classes that are specified, at test time, only by a few example images. Our model achieves this few-shot generation capability by coupling an adversarial training scheme with a novel network design. Through extensive experimental validation and comparisons to several baseline methods on benchmark datasets, we verify the effectiveness of the proposed framework. Our implementation and datasets are available at https://github.com/NVlabs/FUNIT .

研究の動機と目的

教師なしの画像間翻訳における少数ショット一般化を動機づけ、実現する。
テスト時にわずかなターゲットクラスの例だけを用いて、コンテンツ画像を未 seenのターゲットクラスの類似画像へ翻訳するモデルを学習する。
訓練クラスの多様性が少数ショット翻訳能力に与える影響を調査する。
複数のデータセットおよび複数の評価指標において、翻訳品質と分布の一致を示す。

提案手法

コンテンツ画像 x と K 個のターゲットクラス画像 {y1,...,yK} のセットを受け取り、翻訳画像 x̄ を生成する条件付き生成器 G を用いる。
G をコンテンツエンコーダ Ex、クラスエンコーダ Ey、AdaIN残差ブロックを持つデコーダ Fx に分解する。
Ey は K 個のターゲットクラス画像の潜在表現を平均してクラス潜在コード zy を計算する。
デコーダの AdaIN は zy を注入してグローバルな外観を制御し、Ex はコンテンツ構造を保持する。
ソースクラスごとに1つの出力を持つ多タスク対立的識別器 D を訓練し、実画像と翻訳画像をソースクラス条件付きで識別する。
GAN 損失、コンテンツ再構成損失 Lr、特徴マッチング損失 Lf を組み合わせたジョイント目的関数を最適化する。

実験結果

リサーチクエスチョン

RQ1少数の例しか使わない場合、単一の翻訳モデルは未 seenのターゲットクラスへ一般化できるのか。
RQ2訓練中に見られるソースクラスの数を増やすと、少数ショット翻訳の性能はどう変化するのか。
RQ3ターゲットクラスのショット数 K を変えると、翻訳品質と分布マッチングにどのような影響があるのか。
RQ4提案された損失（GAN、コンテンツ再構成、特徴マッチング）は、少数ショット設定で意味ある性能向上に寄与するのか。
RQ5生成画像を用いた新規クラスの小少数分類タスクへ本フレームワークを適用できるのか。

主な発見

FUNIT は、翻訳精度、コンテンツ保持、フォトリアリズム、分布マッチングの点で、1〜20ショット設定においてベースラインを上回る。
翻訳精度（テスト分類器の Top-5）は、Animal Faces で K が 1 から 15–20 へ増加するにつれて 73.69–83.57%、Birds で 49.01–55.63% に達する。
Mean inception score と FID は K が増えるにつれて改善し、フォトリアリズムと分布整合性が向上。
訓練時により多くのソースクラスを見た場合、未 seen のターゲットクラスへの一般化が向上。
人間の評価は、FUNIT 生成出力が複数のショットレベルで公正/不公正なベースラインよりもターゲットクラスに忠実であることを示す。
FUNIT は新規クラスの追加ラベル付き例を生成することで、少数ショ分類を改善するためにも用いることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。