Skip to main content
QUICK REVIEW

[論文レビュー] Semi-supervised Vocabulary-informed Learning

Yanwei Fu, Leonid Sigal|arXiv (Cornell University)|Apr 24, 2016
Domain Adaptation and Few-Shot Learning参考文献 35被引用数 31
ひとこと要約

本論文では、最大マージン埋め込み空間に大規模な意味的語彙を統合することで、教師あり、ゼロショット、オープンセット画像認識を統一的に向上させる半教師あり語彙情報学習(SS-Voc)を提案する。視覚的特徴とラベル付きプロトタイプおよび外部語彙原子との間の距離制約を課すことにより、3,000件の訓練サンプルでのみ、ImageNetおよびAwAでSOTA性能を達成し、最高の競合手法(ConSE)よりもトップ1正答率が3.43ポイント向上した(最大310,000クラス)。

ABSTRACT

Despite significant progress in object categorization, in recent years, a number of important challenges remain, mainly, ability to learn from limited labeled data and ability to recognize object classes within large, potentially open, set of labels. Zero-shot learning is one way of addressing these challenges, but it has only been shown to work with limited sized class vocabularies and typically requires separation between supervised and unsupervised classes, allowing former to inform the latter but not vice versa. We propose the notion of semi-supervised vocabulary-informed learning to alleviate the above mentioned challenges and address problems of supervised, zero-shot and open set recognition using a unified framework. Specifically, we propose a maximum margin framework for semantic manifold-based recognition that incorporates distance constraints from (both supervised and unsupervised) vocabulary atoms, ensuring that labeled samples are projected closest to their correct prototypes, in the embedding space, than to others. We show that resulting model shows improvements in supervised, zero-shot, and large open set recognition, with up to 310K class vocabulary on AwA and ImageNet datasets.

研究の動機と目的

  • 限られたラベル付きデータでの大規模かつオープン語彙設定におけるゼロショット学習(ZSL)の限界を解消すること。
  • ターゲットクラスとソースクラスが排他的で互いに排他的であるという制限的な仮定を克服すること。
  • 大規模な語彙からの外部意味的知識を活用することで、未学習クラスの効果的認識を可能にすること。
  • 教師あり、ゼロショット、オープンセット認識を統一した1つの学習フレームワークで統合すること。
  • ラベル付きデータおよびオープン語彙原子からの最大マージン制約を用いて、視覚的意味的埋め込み空間における一般化性能とクラス分離性を向上させること。

提案手法

  • 視覚的特徴と意味的プロトタイプとの間の幾何的分離を強制する最大マージンフレームワーク内で認識タスクを定式化する。
  • 距離制約を用いて、教師あり(ラベル付き)および非教師あり(未学習)クラスプロトタイプを埋め込み空間に統合する。
  • word2vecを用いて語彙原子間の意味的関係を学習し、既知クラスから未知クラスへの知識の転送を可能にする。
  • 画像特徴を共有埋め込み空間にマップする視覚的意味的埋め込み関数 $ g(\mathbf{x}) $ を学習する。この空間ではプロトタイプが最大限に分離される。
  • 訓練中にオープン語彙情報学習制約を組み込むことで、ターゲットクラスのラベル付き例が存在しない場合でも一般化性能を向上させる。
  • t-SNE可視化とアブレーションスタディを用いて、完全モデル(SS-Voc:full)とクローズド語彙バージョン(SS-Voc:closed)の有効性を検証する。

実験結果

リサーチクエスチョン

  • RQ1少数のラベル付き例でのみ、教師あり、ゼロショット、オープンセット認識タスクのパフォーマンスを統一的フレームワークで向上させられるか?
  • RQ2大規模なオープン語彙の意味的原子を組み込むことで、視覚的意味的埋め込みの一般化性能と分離性にどのような影響を与えるか?
  • RQ3外部語彙原子からの最大マージン制約を組み込むことで、未学習クラスの認識精度にどの程度向上が見られるか?
  • RQ4最大310,000クラスの極端なオープンセット条件でも、モデルの性能はどの程度維持されるか?
  • RQ5限定的な監視下で学習された場合、提案手法は既存のSOTA ZSLモデルを上回るか?

主な発見

  • SS-Voc:fullモデルは、ImageNetで3,000件の訓練サンプルでのみ、トップ1正答率8.9%、トップ5正答率14.9%を達成し、ConSE(5.5%/7.8%)を3.43ポイント上回った。
  • ImageNetの全インスタンスを用いた場合、トップ1正答率9.5%、トップ5正答率16.8%を達成し、ConSEおよびDeViSEを顕著に上回った。
  • モデルは大規模なオープン語彙設定に対しても頑健であり、ImageNetおよびAwAで最大310,000クラスのラベルを維持しながら性能を維持した。
  • t-SNE可視化により、SS-Voc:fullは特に細分化されたクラス(例:'persian_cat' や 'raccoon')において、SVR や SS-Voc:closed よりもよりコンパクトで明確に分離されたクラスクラスタを生成することが確認された。
  • オープン語彙情報学習制約のおかげで、未学習クラスの誤分類が低減した(例:'persian_cat' を 'hamster' と誤分類するのを防いだ)。
  • 大規模な訓練データセットでは性能向上が小さくなるため、本手法の利点は主に低ショットおよびオープンセット条件で顕著であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。