QUICK REVIEW

[論文レビュー] Feature Generating Networks for Zero-Shot Learning

Yongqin Xian, Tobias Lorenz|arXiv (Cornell University)|Dec 4, 2017

Domain Adaptation and Few-Shot Learning被引用数 17

ひとこと要約

本論文では、意味的クラス記述子を用いて未学習クラスの深層CNN特徴を合成する条件付き生成対抗ネットワーク、f-CLSWGANを提案する。訓練にはWasserstein GAN損失と分類損失を用い、判別性の高い特徴を生成する。本手法は、画像ではなく特徴を直接生成することで、5つのデータセットにおいてゼロショットおよび一般化ゼロショット学習の両設定で最先端の性能を達成する。

ABSTRACT

Suffering from the extreme training data imbalance between seen and unseen classes, most of existing state-of-the-art approaches fail to achieve satisfactory results for the challenging generalized zero-shot learning task. To circumvent the need for labeled examples of unseen classes, we propose a novel generative adversarial network (GAN) that synthesizes CNN features conditioned on class-level semantic information, offering a shortcut directly from a semantic descriptor of a class to a class-conditional feature distribution. Our proposed approach, pairing a Wasserstein GAN with a classification loss, is able to generate sufficiently discriminative CNN features to train softmax classifiers or any multimodal embedding method. Our experimental results demonstrate a significant boost in accuracy over the state of the art on five challenging datasets -- CUB, FLO, SUN, AWA and ImageNet -- in both the zero-shot learning and generalized zero-shot learning settings.

研究の動機と目的

未学習クラスに訓練例が存在しないゼロショット学習における極端なデータ不均衡問題に対処すること。
しばしば低品質または判別性のない画像を生成する画像ベースのデータ生成法の限界を乗り越えること。
ソフトマックス分類器の有効な訓練を可能にするために、クラス条件付きCNN特徴を生成する特徴生成フレームワークを開発すること。
一般化ゼロショット学習を、生成モデルの品質および一般化能力を評価するための堅牢なプロキシタスクとして確立すること。

提案手法

クラスレベルの意味的埋め込み（属性、文、word2vecベクトルなど）を条件として用いる、条件付きGANであるf-CLSWGANを提案する。
訓練の安定化と判別器への1リプシッツ制約の強制のために、勾配ペナルティを用いたWasserstein GAN損失を用いる。
生成器がソフトマックス分類器によって容易に分離可能な特徴を生成するように正則化する、新しい分類損失を導入する。
潜在ノイズベクトルと意味的記述子から、クラス条件付き特徴分布へマッピングするように生成器を訓練し、画像生成を回避する。
一般化可能なフレームワークを実現するために、ResNetやGoogleNetなどの深層CNNバックボーンを用いる。
生成された特徴を用いて標準的な分類器（例：ソフトマックス）を訓練し、画像レベルの生成よりも特徴レベルの生成が優れていることを示す。

実験結果

リサーチクエスチョン

RQ1画像の代わりにCNN特徴を生成することで、ゼロショット学習タスクの性能が向上するか？
RQ2Wasserstein GANと分類損失を組み合わせることで、未学習クラスの特徴品質と一般化能力が向上するか？
RQ3特徴空間で学習された生成モデルが、多様なデータセットで一般化ゼロショット学習において最先端の結果を達成できるか？
RQ4一般化ゼロショット学習は、生成モデルの表現力の評価に信頼性のあるプロキシとして機能するか？

主な発見

f-CLSWGANは、一般化ゼロショット学習設定においてCUBで54.0%、FLOで65.6%の調和平均正答率を達成し、ベースラインおよび画像ベースの生成手法を顕著に上回る。
CUBデータセットでは、f-CLSWGANは、生成なしの45.1%から生成特徴を用いることで54.0%に向上する一方、StackGANによる画像生成は正答率を31.9%まで低下させる。
FLOデータセットでは、生成なしの21.9%から特徴生成によって65.6%に向上し、データセット全体で一貫した向上が確認された。
StackGANによる画像生成は、CUBで判別性のない詳細の欠如により性能が低下する一方、特徴生成は高品質でクラスに整合性のある表現を維持する。
本手法により、ドメインシフトと未学習クラスの例の欠如により従来は不可能とされた、一般化ゼロショット学習におけるシンプルなソフトマックス分類器の使用が可能になった。
結果は、一般化ゼロショット学習を生成モデルの表現力の評価に信頼性のある定量的ベンチマークとして用いる価値があることを支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。