Skip to main content
QUICK REVIEW

[論文レビュー] Zero-Shot Learning by Convex Combination of Semantic Embeddings

Mohammad Norouzi, Tomáš Mikolov|arXiv (Cornell University)|Dec 19, 2013
Domain Adaptation and Few-Shot Learning参考文献 17被引用数 781
ひとこと要約

本稿では、任意の既存のn値画像分類器のソフトマックス確率を用いて、事前学習済み単語埋め込みを凸結合することで、画像を意味的埋め込み空間にマップする、シンプルでありながら効果的な手法であるConvex Combination of Semantic Embeddings (ConSE)を提案する。この手法は、追加の訓練なしに、1,600の未学習オブジェクトカテゴリでImageNet上で最先端のゼロショット学習性能を達成し、Hit@1が9.4%、Hit@5が24.7%を記録した。

ABSTRACT

Several recent publications have proposed methods for mapping images into continuous semantic embedding spaces. In some cases the embedding space is trained jointly with the image transformation. In other cases the semantic embedding space is established by an independent natural language processing task, and then the image transformation into that space is learned in a second stage. Proponents of these image embedding systems have stressed their advantages over the traditional way{} classification framing of image understanding, particularly in terms of the promise for zero-shot learning -- the ability to correctly annotate images of previously unseen object categories. In this paper, we propose a simple method for constructing an image embedding system from any existing way{} image classifier and a semantic word embedding model, which contains the $ $ class labels in its vocabulary. Our method maps images into the semantic embedding space via convex combination of the class label embedding vectors, and requires no additional training. We show that this simple and direct method confers many of the advantages associated with more complex image embedding schemes, and indeed outperforms state of the art methods on the ImageNet zero-shot learning task.

研究の動機と目的

  • 再訓練を伴わずに、任意の事前学習済みn値画像分類器を意味的埋め込みモデルに変換することで、ゼロショット学習を可能にすること。
  • 既存の単語埋め込みと画像分類器の出力を活用して、意味的空間における連続的画像表現を構築すること。
  • より複雑な共同学習アプローチと比較して、単純で直接的な手法がゼロショット画像認識で優れるかどうかを評価すること。
  • 信頼度と意味的近接性が埋め込みの大きさおよび一般化性能に与える役割を調査すること。

提案手法

  • 本手法は、事前学習済み画像分類器のソフトマックス確率出力を、対応するクラスラベルの単語埋め込みの重みとして用いる。
  • 各画像は、n個のクラスラベルの意味的ベクトルの重み付き和として埋め込まれる。ここで重みは予測されたクラス確率である。
  • 複数の同義語を持つラベル(例:ImageNetのシンセット)については、あらかじめすべての同義語の単語ベクトルを平均化した後、分類器のスコアと組み合わせる。
  • 推論時、画像埋め込みとのコサイン類似度に基づいて、すべての個々の単語ベクトルを順位付けし、上位k個の予測ラベルを取得する。
  • 相対的なクラススコアを出力する任意の画像分類器と、意味的に類似した概念がベクトル空間で近接するような任意の意味的単語埋め込みモデルと互換性がある。
  • この手法は、結果の埋め込みのL2ノルムがモデルの信頼度を自然に符号化する。これは、曖昧なまたは意味的に多様な予測に対してはノルムが低くなる。

実験結果

リサーチクエスチョン

  • RQ1分類器のスコアを用いた単語埋め込みの凸結合によって、効果的なゼロショット学習が可能になるか?
  • RQ2この手法は、より複雑な共同学習アプローチを上回る性能を示すか?
  • RQ3埋め込みの大きさに符号化されたモデルの信頼度は、予測の曖昧さや意味的多様性とどのように相関するか?
  • RQ4単語埋め込みコーパスの選択が、ゼロショット一般化性能にどの程度影響を与えるか?

主な発見

  • ConSEは、1,600の未学習ImageNetカテゴリでHit@1が9.4%、Hit@5が24.7%を達成し、同じゼロショットベンチマークで最近の最先端手法(DeViSE)を上回った。
  • 本手法は元の1,000クラスImageNetタスクにおいても競争力のある性能を示し、ConSE(1)はソフトマックスベースラインと同等の55.6%のHit@1を達成した一方で、ゼロショット一般化も可能であった。
  • モデルの埋め込みの大きさは予測の信頼度を暗黙的に反映している:L2ノルムが低い埋め込みは、不確実性や意味的多様性の高い予測に対応する。
  • ConSE(1)モデルのHit@1スコアがソフトマックスベースライン(55.1% vs. 55.6%)とわずかに異なるのは、入力スコアが同一でも、同義語の単語ベクトルの取り扱いが非一様だったためである。
  • 学習済みクラスからの距離が増すにつれて性能は低下するが、このような条件下でも、従来の手法を上回り、堅牢な性能を示した。
  • 視覚的およびテキストモデルの選択にかかわらず、本手法は堅牢である。これは、相対的なクラススコアと、意味的に類似した概念が近接する意味的空間が得られれば十分であるためである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。