Skip to main content
QUICK REVIEW

[論文レビュー] Zero-Shot Learning via Semantic Similarity Embedding

Ziming Zhang, Venkatesh Saligrama|arXiv (Cornell University)|Sep 15, 2015
Domain Adaptation and Few-Shot Learning参考文献 32被引用数 117
ひとこと要約

本論文は、ゼロショット学習のための意味的類似度埋め込み(SSE)手法を提案する。この手法は、ソースドメインとターゲットドメインのデータを、学習済みクラスの割合の混合としてモデル化し、両ドメインを共有の意味的空間にマッピングするクラス依存の特徴変換を学習することで、未学習クラスの正確な分類を可能にする。本手法は、SUN Attributesを含む複数のベンチマークデータセットで最先端の性能を達成し、先行手法に比べ顕著な精度向上を示す。

ABSTRACT

In this paper we consider a version of the zero-shot learning problem where seen class source and target domain data are provided. The goal during test-time is to accurately predict the class label of an unseen target domain instance based on revealed source domain side information (\eg attributes) for unseen classes. Our method is based on viewing each source or target data as a mixture of seen class proportions and we postulate that the mixture patterns have to be similar if the two instances belong to the same unseen class. This perspective leads us to learning source/target embedding functions that map an arbitrary source/target domain data into a same semantic space where similarity can be readily measured. We develop a max-margin framework to learn these similarity functions and jointly optimize parameters by means of cross validation. Our test results are compelling, leading to significant improvement in terms of accuracy on most benchmark datasets for zero-shot recognition.

研究の動機と目的

  • テスト時に属性(例:属性、語彙)のみが利用可能な状況で、未学習クラスの分類を困難とするゼロショット学習の課題に対処すること。
  • ソースドメインとターゲットドメインの両方のデータを、学習済みクラスの割合の確率的混合としてモデル化することで、ゼロショット認識を向上させること。
  • ソースドメインとターゲットドメインの両方の共有意味的埋め込みを学習し、類似する混合パターンが同じ未学習クラスを示すようにすること。
  • 未学習クラスへの一般化を向上させるために、保持された学習済みクラスを用いた交差検証により、埋め込みパラメータを共同で最適化すること。
  • ノイズの多い補助情報や線形マッピングに依存する従来手法の制限を克服するため、クラス依存の特徴変換を導入すること。

提案手法

  • 各ソースドメインクラスを、学習済みクラスの割合のヒストグラムとして表現し、単体上での確率的混合を形成する。
  • クラス依存の特徴変換を用いて、ターゲットドメインのインスタンスを同じ意味的空間に射影し、それらの学習済みクラス混合割合を推定する。
  • マックスマージンフレームワークを用いて、両ドメイン間の学習済みクラスデータ分布を一致させるように、ソースおよびターゲットドメインの埋め込み関数を学習する。
  • 2つのバリエーションを採用:1つは積集合関数に基づくもの、もう1つは類似度スコアリングに整数化線形関数(ReLU)を用いるもの。
  • 学習済みクラスのサブセットを保持することで交差検証を実施し、未学習クラスへの一般化を向上させるために埋め込みパラメータを共同で最適化する。
  • 深層特徴(例:VGG-verydeep-19)を埋め込みネットワークの入力として用い、頑健な特徴表現を可能にする。

実験結果

リサーチクエスチョン

  • RQ1ソースドメインとターゲットドメインのデータを、学習済みクラスの割合の混合としてモデル化することで、ゼロショット認識の精度が向上するか?
  • RQ2クラス依存の特徴変換を学習することで、ソースドメインとターゲットドメイン間の意味的類似性の整合性が向上するか?
  • RQ3保持された学習済みクラスを用いた交差検証を伴うマックスマージンフレームワークは、未学習クラスへの一般化に効果的に機能するか?
  • RQ4本手法は、大規模ゼロショット認識ベンチマークにおいて、最先端の手法と比較してどのように性能を発揮するか?
  • RQ5学習済みクラスの数が少なく、未学習クラスの数が多い状況でも、本手法はどれほど頑健であるか?

主な発見

  • SUN Attributesデータセットでは、317個の学習済みクラスと10個の未学習クラスを用いた場合、87.17%の精度を達成し、ランダムチャンス(0.14%)と比べ顕著な向上を示した。
  • 700個の未学習クラスを用いた場合、精度は2.85%に低下したが、依然として安定しており、ランダムベースラインより顕著に高い水準を維持しており、スケーラビリティを示した。
  • CIFAR-10では、マルチスレッドCPUを用いて5分未満で推論を完了し、計算効率の高さを示した。
  • 本手法は、SUN AttributesやCIFAR-10など5つのベンチマークデータセットで、既存の最先端手法を上回った。
  • クラス依存の特徴変換と意味的類似度埋め込みの使用により、特にVGG-verydeep-19特徴を用いた場合、ターゲットドメインデータがソースドメイン属性とよりよく一致するようになった。
  • 学習済みクラスが少ない場合でも本手法は良好に一般化でき、17個の学習済みクラスと10個の未学習クラスを用いた場合に61.00%の精度を達成し、学習済みクラスを317個に増やすと87.17%まで向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。