Skip to main content
QUICK REVIEW

[論文レビュー] Transductive Unbiased Embedding for Zero-Shot Learning

Jie Song, Chengchao Shen|arXiv (Cornell University)|Mar 30, 2018
Domain Adaptation and Few-Shot Learning参考文献 34被引用数 29
ひとこと要約

本論文は、訓練中にラベル付きのソース画像とラベルなしのターゲット画像を同時に活用することで、見慣れた(ソース)クラスへの強いバイアスを低減する、変換的ゼロショット学習手法であるQuasi-Fully Supervised Learning(QFSL)を提案する。ソース画像を固定された意味的アンカーポイントにマッピングし、ターゲット画像が埋め込み空間内でソースクラスのアンカーポイントとは異なる、ターゲット固有の点に投影されるように制約することで、QFSLは最先端の性能を達成し、AwA2、CUB、SUNデータセットにおける一般化ゼロショット学習設定で、先行手法を9.3–24.5%上回る。

ABSTRACT

Most existing Zero-Shot Learning (ZSL) methods have the strong bias problem, in which instances of unseen (target) classes tend to be categorized as one of the seen (source) classes. So they yield poor performance after being deployed in the generalized ZSL settings. In this paper, we propose a straightforward yet effective method named Quasi-Fully Supervised Learning (QFSL) to alleviate the bias problem. Our method follows the way of transductive learning, which assumes that both the labeled source images and unlabeled target images are available for training. In the semantic embedding space, the labeled source images are mapped to several fixed points specified by the source categories, and the unlabeled target images are forced to be mapped to other points specified by the target categories. Experiments conducted on AwA2, CUB and SUN datasets demonstrate that our method outperforms existing state-of-the-art approaches by a huge margin of 9.3~24.5% following generalized ZSL settings, and by a large margin of 0.2~16.2% following conventional ZSL settings.

研究の動機と目的

  • 新しい(ターゲット)クラスの画像が頻繁に見慣れた(ソース)クラスに誤分類されるというゼロショット学習における強いバイアスを是正すること。
  • テストデータにソースクラスとターゲットクラスの両方が含まれる一般化ゼロショット学習設定での性能向上を図ること。
  • 訓練中にラベル付きソースデータとラベルなしターゲットデータを活用し、バイアスのない視覚的・意味的埋め込みを学習する手法を開発すること。
  • 将来のターゲットクラスのラベルが利用可能になった場合でも効果を発揮するエンドツーエンドの訓練を実現すること。

提案手法

  • 本手法は、訓練中にラベル付きソース画像とラベルなしターゲット画像の両方へのアクセスを仮定する変換的学習の枠組みを採用する。
  • ソース画像は、それらのソースカテゴリに対応する固定されたアンカーポイントに意味的埋め込み空間内でマッピングされる。
  • ラベルなしターゲット画像は、ソースクラスのアンカーポイントが占める領域とは異なる、ターゲット固有の点に投影されるように制約される。これにより、ソースクラスへのバイアスが低減される。
  • 深層ニューラルネットワーク(例:GoogLeNet や ResNet)を用いて、視覚的・意味的埋め込み空間を共同で学習するエンドツーエンドの訓練が行われる。
  • 本手法は、完全に教師あり学習に類似していることから、ターゲットラベルが存在しない状況でも、ソースとターゲットの両方のデータに基づいて分類器を学習できる。このため、Quasi-Fully Supervised Learning(QFSL)と名付けられた。
  • 本手法はソースクラスの性能を維持しつつ、特にクラスの不均衡が生じる状況下でも、ターゲットクラスの性能を顕著に向上させる。

実験結果

リサーチクエスチョン

  • RQ1ゼロショット学習の訓練段階で、見慣れたクラスへの強いバイアスを効果的に是正する方法は何か?
  • RQ2訓練中にラベルなしターゲット画像を含めることで、一般化ゼロショット学習設定における一般化性能が向上するか?
  • RQ3ソースカテゴリとターゲットカテゴリの間でクラスの不均衡が増加する状況下で、本手法の性能はどのように変化するか?
  • RQ4変換的手法が、従来のゼロショット学習と一般化ゼロショット学習の両ベンチマークで最先端の結果を達成できるか?

主な発見

  • QFSLは、AwA2、CUB、SUNデータセットにおける一般化ゼロショット学習設定で、既存の最先端手法を9.3–24.5%上回る。
  • CUBおよびAwA2データセットでは、QFSL R(リサンプリング接続を備えたバージョン)がQFSL Gを上回る性能を示すが、SUNではQFSL Gが優れている。これはSUNにデータが不足していることが理由と考えられる。
  • ソースクラスの数が増加する(例:SUNで100から645に増加)と、QFSLとベースラインのQFSL−との間で性能差が拡大する。これは、QFSLがクラスの不均衡下でも有効であることを裏付ける。
  • 本手法は、ソースクラスの正確さ(MCA_s)を高い水準で維持しながら、ターゲットクラスの正確さ(MCA_t)を顕著に向上させる。これは、バイアスの効果的な是正を示している。
  • 一般化設定下では、QFSLは従来のZSLベースラインに対して0.2–16.2%の性能向上を達成する。
  • アブレーションスタディの結果、ラベルなしターゲットデータの活用が、バイアス低減および未学習クラスへの一般化性能向上に不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。