Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Autoencoder for Zero-Shot Learning

Elyor Kodirov, Tao Xiang|arXiv (Cornell University)|Apr 26, 2017
Domain Adaptation and Few-Shot Learning参考文献 53被引用数 119
ひとこと要約

セマンティックオートエンコーダー(SAE)を紹介。視覚特徴をセマンティック空間へマッピングするエンコーダと元の特徴を再構成するデコーダを共同学習し、ゼロショット学習の一般化を向上させ、効率的な大規模トレーニングを可能にする。

ABSTRACT

Existing zero-shot learning (ZSL) models typically learn a projection function from a feature space to a semantic embedding space (e.g.~attribute space). However, such a projection function is only concerned with predicting the training seen class semantic representation (e.g.~attribute prediction) or classification. When applied to test data, which in the context of ZSL contains different (unseen) classes without training data, a ZSL model typically suffers from the project domain shift problem. In this work, we present a novel solution to ZSL based on learning a Semantic AutoEncoder (SAE). Taking the encoder-decoder paradigm, an encoder aims to project a visual feature vector into the semantic space as in the existing ZSL models. However, the decoder exerts an additional constraint, that is, the projection/code must be able to reconstruct the original visual feature. We show that with this additional reconstruction constraint, the learned projection function from the seen classes is able to generalise better to the new unseen classes. Importantly, the encoder and decoder are linear and symmetric which enable us to develop an extremely efficient learning algorithm. Extensive experiments on six benchmark datasets demonstrate that the proposed SAE outperforms significantly the existing ZSL models with the additional benefit of lower computational cost. Furthermore, when the SAE is applied to supervised clustering problem, it also beats the state-of-the-art.

研究の動機と目的

  • ゼロショット学習(ZSL)における射影ドメインシフトを動機づけて対処する。
  • エンコーディングと再構成の両方の制約を課す意味論的に誘導されたオートエンコーダを提案する。
  • 結果として生じるSylvester方程式をトレーニングデータサイズに依存しない効率的なソルバーを開発する。
  • 六つのベンチマークで最先端のZSL性能を示し、教師ありクラスタリングへの適用性を示す。

提案手法

  • エンコーダ W とデコーダ W^T を対称な線形射影として、共有された潜在意味空間を用いてモデル化する。
  • WX = S をハード制約として課し、目的関数 min_W ||X - W^T S||_F^2 + λ||WX - S||_F^2 によりソフト制約へ緩和する。
  • A = SS^T, B = λXX^T, C = (1+λ) SX^T を用いて Sylvester 方程式 AW + WB = C を導出し、W を解く(N に依存しない計算量)。
  • SAE が Sylvester 方程式を解く 6 行の MATLAB 実装を提供する。
  • SAE をゼロショット学習へ適用するには、テスト映像を意味空間へ射影して未見クラスのプロトタイプに対して最近傍探索を行う、あるいはプロトタイプを視覚空間へ射影してその空間で分類する。
  • ラベル付きデータから意味的射影を学習し、射影されたテストデータをクラスタリングすることで教師ありクラスタリングへの適用性を示す。

実験結果

リサーチクエスチョン

  • RQ1ゼロショット学習エンコーダの再構成制約は未見クラスへの一般化を改善するか。
  • RQ2対称的で線形なSAEは、既存のZSLモデルと比較して計算コストを抑えつつ競争力のある性能を提供するか。
  • RQ3SAE は小規模な意味空間(属性)と大規模な意味空間(単語ベクトル)の両方でどのように性能を発揮するか。
  • RQ4SAE フレームワークをZSLを超える教師ありクラスタリングへ効果的に拡張できるか。

主な発見

手法AwACUBaP&YSUN
SAE (W)84.761.455.491.0
SAE (W^T)84.060.954.891.5
  • SAE は六つのZSLベンチマークで最先端または競争力のある結果を達成し、多くの既存モデルを上回っている。
  • 再構成制約の導入により、エンコーダおよびデコーダの設定のいずれでも、単純な射影ベースのベースライン(リッジ回帰)よりも性能が大幅に向上する。
  • 大規模な ImNet-2 で、SAE (W) は現状の最先端 SS-Voc を 8.8% 向上させる。
  • SAE の二つの変種(エンコーダ W とデコーダ W^T)はZSL に有効で、全体的にはエンコーダがやや良い場合が多い。
  • SAE は計算コストを削減する:訓練は比較対象より少なくとも 10 倍高速(例: AwA の場合)。
  • SAE は教師ありクラスタリングにも恩恵を与え、合成データと実データのいずれでも専用のメトリクス学習法を上回ることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。