Skip to main content
QUICK REVIEW

[論文レビュー] Latent Embeddings for Zero-shot Classification

Yongqin Xian, Zeynep Akata|arXiv (Cornell University)|Mar 29, 2016
Domain Adaptation and Few-Shot Learning参考文献 31被引用数 65
ひとこと要約

本稿では、複数の学習済み二重線形マップから潜在変数を用いて選択することで、多様な視覚的属性をモデル化することにより、性能を向上させる、ゼロショット画像分類のための新規な区分線形適合度モデルであるLatent Embeddings(LatEm)を提案する。この手法は、3つのベンチマークデータセットにおいて最先端の結果を達成し、無教師の埋め込みを用いた場合にAWAで66.2%の正確度、CUBで34.9%を記録した。また、物体の属性の学習済みクラスタを通じて、一般化性能と解釈可能性が向上している。

ABSTRACT

We present a novel latent embedding model for learning a compatibility function between image and class embeddings, in the context of zero-shot classification. The proposed method augments the state-of-the-art bilinear compatibility model by incorporating latent variables. Instead of learning a single bilinear map, it learns a collection of maps with the selection, of which map to use, being a latent variable for the current image-class pair. We train the model with a ranking based objective function which penalizes incorrect rankings of the true class for a given image. We empirically demonstrate that our model improves the state-of-the-art for various class embeddings consistently on three challenging publicly available datasets for the zero-shot setting. Moreover, our method leads to visually highly interpretable results with clear clusters of different fine-grained object properties that correspond to different latent variable maps.

研究の動機と目的

  • 従来の線形適合度関数が複雑な視覚的変動を捉えきれない細分化ゼロショット分類の課題に対処すること。
  • 動的選択可能な専用線形マップを可能にする潜在変数を導入することで、画像とクラスの埋め込み間の適合度学習を改善すること。
  • 手動で定義された属性に依存せずに、無教師のテキスト埋め込み(例:word2vec、GloVe)をゼロショット学習で効果的に活用できること。
  • 確率的勾配降下法とプルーニングに基づくモデル選択戦略を用いて、最適な潜在マップ数を求めるスケーラブルで効率的な訓練手法を開発すること。
  • 学習済みの潜在マップが色やくちばしの形といった明確な物体の属性に対応していることを示し、視覚的な解釈可能性を提供すること。

提案手法

  • 各画像-クラスペアに対して潜在変数を導入し、K個の学習済み二重線形適合度行列から選択することで、区分線形の意思決定境界を実現する。
  • 各適合度マップは行列W_iでパラメータ化され、最終的な適合度スコアはy = x^T W_i zとして計算される。ここでxは画像埋め込み、zはクラス埋め込みである。
  • 真のクラスとすべての誤りクラスとの間のマージンを最小化するランクベースの目的関数を用いてモデルを訓練し、正しい相対順序付けを促進する。
  • モデルパラメータと潜在変数の割り当てを同時に最適化するため、効率的な確率的勾配降下法(SGD)アルゴリズムを用いる。
  • 交差検証に比べてモデルサイズと訓練時間を削減できる、新しいプルーニングに基づく手法を提案し、潜在マップ数の自動選択を実現する。
  • 教師あり(例:属性)および無教師(例:word2vec、GloVe)のクラス埋め込みを両方サポートし、柔軟なゼロショット学習を可能にする。

実験結果

リサーチクエスチョン

  • RQ1潜在変数に基づく適合度モデルは、単一の二重線形モデルと比較して、細分化データセットにおけるゼロショット分類性能を向上させることができるか?
  • RQ2複数の動的選択可能な二重線形マップの使用は、色や形状といった視覚的属性のより良い分離(ディセントレージョン)をもたらすか?
  • RQ3潜在マップ数(K)が、異なるデータセットと埋め込みの文脈でモデルの性能と一般化性能に与える影響は何か?
  • RQ4プルーニングに基づくモデル選択手法は、交差検証に比べて、潜在埋め込みモデルの効率性と性能において優れているか?
  • RQ5学習済みの潜在マップが、物体の解釈可能な視覚的属性(例:色、くちばしの形)に対応している程度はどの程度か?

主な発見

  • LatEmは、無教師のword2vec埋め込みを用いてAWAデータセットで66.2%のゼロショット正確度を達成し、前回の最先端(SOTA)の60.1%を大きく上回った。
  • 細分化されたCUBデータセットでは、word2vec埋め込みを用いて34.9%の正確度を記録し、前回のSOTAの29.9%を上回った。
  • Dogsデータセットでは、word2vec埋め込みを用いて36.3%の正確度を達成し、前回のSOTAの35.1%を上回った。
  • AWAで教師あり属性を用いた場合、LatEmは76.1%の正確度を達成し、前回のSOTAの73.9%を上回った。
  • モデルは強力な一般化性能を示し、5分割交差検証のスプリット間で安定した性能を維持し、標準誤差が低かった。
  • 定性的な分析により、異なる潜在マップが色、くちばしの形、翼の模様といった解釈可能な視覚的属性に対応していることが確認され、モデルの解釈可能性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。