Skip to main content
QUICK REVIEW

[論文レビュー] Semi-supervised Zero-Shot Learning by a Clustering-based Approach

Seyed Mohsen Shojaee, Mahdieh Soleymani Baghshah|arXiv (Cornell University)|May 29, 2016
Domain Adaptation and Few-Shot Learning参考文献 27被引用数 34
ひとこと要約

本稿では、深層視覚特徴とクラスタリングを活用して一般化性能を向上させる半教師ありゼロショット学習手法を提案する。この手法は、クラスの特徴記述子を視覚的特徴空間に写像する線形変換を同時に学習し、未学習の未確認クラスのサンプルをクラスタに割り当てる。本手法は、深層特徴の自然なクラスタ構造を活用し、未学習データを用いてドメインシフトを軽減することで、4つのベンチマークデータセットのうち3つで最先端の手法を上回る性能を達成する。

ABSTRACT

In some of object recognition problems, labeled data may not be available for all categories. Zero-shot learning utilizes auxiliary information (also called signatures) describing each category in order to find a classifier that can recognize samples from categories with no labeled instance. In this paper, we propose a novel semi-supervised zero-shot learning method that works on an embedding space corresponding to abstract deep visual features. We seek a linear transformation on signatures to map them onto the visual features, such that the mapped signatures of the seen classes are close to labeled samples of the corresponding classes and unlabeled data are also close to the mapped signatures of one of the unseen classes. We use the idea that the rich deep visual features provide a representation space in which samples of each class are usually condensed in a cluster. The effectiveness of the proposed method is demonstrated through extensive experiments on four public benchmarks improving the state-of-the-art prediction accuracy on three of them.

研究の動機と目的

  • すべてのカテゴリに対してラベル付きデータが入手できない状況、特に細分化分類の文脈においてゼロショット認識を解決すること。
  • 従来の手法で無視されがちな、未確認クラスからの未学習サンプルを活用することで、ゼロショット認識性能を向上させること。
  • 同じクラスに属するサンプルが自然に密なクラスタを形成するという、深層視覚特徴の固有のクラスタ構造を活用すること。
  • ラベル付きの既知クラスデータと未ラベルの未確認クラスデータを併用して、クラス特徴記述子の写像とサンプルの割り当てを同時に学習することで、既知クラスと未確認クラス間のドメインシフトを軽減すること。
  • クラスタリングに基づく未学習データの割り当てが、視覚的特徴空間における写像されたクラス特徴記述子の代表性を向上させることを示すこと。

提案手法

  • 本手法は、クラス特徴記述子を深層視覚特徴空間に写像する線形変換 D を学習する。写像された特徴記述子が既知クラスのラベル付きサンプルに近くなるようにする。
  • 本手法は、写像された特徴記述子が割り当てられたクラスタを適切に表現するよう、損失関数を最小化することで、変換 D と未学習サンプルの未確認クラスへの割り当てを同時に最適化する。
  • 本手法は、同じクラスからの視覚的特徴が自然なクラスタを形成すると仮定し、この構造を未学習データのラベル割り当てをガイドするために用いる。
  • より単純なベースライン手法では、まず既知クラスデータのみを用いて D を学習し、その後k-meansなどのクラスタリング手法を用いて未学習サンプルを未確認クラスに割り当てる。
  • 最適化には正則化を施した目的関数を用い、ハイパーパrameter γ と β は訓練データ上で10分割交差検証により調整される。
  • 視覚的埋め込み空間として、事前学習済みのVGG-19ネットワークの最初の全結合層からの4096次元特徴を用いる。

実験結果

リサーチクエスチョン

  • RQ1クラス特徴記述子の写像と未確認クラスの未学習サンプルの割り当てを同時に学習することで、ゼロショット認識性能が向上するか?
  • RQ2深層視覚特徴の自然なクラスタ構造が、写像されたクラス特徴記述子の代表性を向上させるか?
  • RQ3未確認クラスからの未学習データが、ゼロショット学習におけるドメインシフトを軽減するのに寄与するか?
  • RQ4標準的なゼロショットベンチマークにおいて、本手法は最先端の手法と比較してどのように性能を発揮するか?
  • RQ5未学習データの構造を考慮した変換行列の初期化が、性能向上に顕著に寄与するか?

主な発見

  • 提案手法は、4つの公開ベンチマークのうち3つ(CUB, AWA1, SUN)で最先端の手法を上回り、より高いゼロショット認識精度を達成した。
  • CUBデータセットでは、共同最適化を用いた場合(Ours(init - R))で平均精度68.7%を達成し、以前の手法を顕著に上回った。
  • より単純なベースライン(Ours (Simple))でも強力な性能を示しており、共同最適化なしでもクラスタリングに基づく割り当てが有効であることが示された。
  • 未学習データの構造を組み込んだ初期化法(Ours(init - R))は、既知クラスデータのみを用いた初期化(Ours(init D))よりも顕著に高い性能を示し、未学習データの価値を裏付けた。
  • aPascal-aYahooデータセットでは、属性平均化のためクラス特徴記述子が類似しているため、他の手法に劣った。これは、特徴記述子の判別性が欠如している場合に本手法の限界が顕在することを示唆している。
  • 実験により、同じクラスに属する視覚的特徴が自然にクラスタを形成することが確認され、本手法の設計の根幹にある仮定が妥当であることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。