QUICK REVIEW

[論文レビュー] Semantic-Guided Multi-Attention Localization for Zero-Shot Learning

Yizhe Zhu, Jianwen Xie|arXiv (Cornell University)|Mar 1, 2019

Domain Adaptation and Few-Shot Learning被引用数 48

ひとこと要約

本論文は、注釈なしで識別的なオブジェクト部位を発見し、グローバルおよびローカル特徴を埋め込みソフトマックスとクラス中心トリプレット損失で共同学習する、意味論ガイド付きマルチアテンション局在モデル（SGMA）を用いたゼロショット学習を提案し、最先端の結果を達成します。

ABSTRACT

Zero-shot learning extends the conventional object classification to the unseen class recognition by introducing semantic representations of classes. Existing approaches predominantly focus on learning the proper mapping function for visual-semantic embedding, while neglecting the effect of learning discriminative visual features. In this paper, we study the significance of the discriminative region localization. We propose a semantic-guided multi-attention localization model, which automatically discovers the most discriminative parts of objects for zero-shot learning without any human annotations. Our model jointly learns cooperative global and local features from the whole object as well as the detected parts to categorize objects based on semantic descriptions. Moreover, with the joint supervision of embedding softmax loss and class-center triplet loss, the model is encouraged to learn features with high inter-class dispersion and intra-class compactness. Through comprehensive experiments on three widely used zero-shot learning benchmarks, we show the efficacy of the multi-attention localization and our proposed approach improves the state-of-the-art results by a considerable margin.

研究の動機と目的

グローバルな画像特徴を超えた、ゼロショット認識のための識別的特徴学習を動機づける。
手動アノテーションなしに自動的に複数の識別的なオブジェクト部位を発見する。
意味ガイドの下でグローバルおよびローカル視覚特徴を共同学習し、視覚-意味埋め込みを改善する。
埋め込みソフトマックス損失とクラス中心トリプレット損失によって特徴識別性を高める。
標準的なゼロショット学習ベンチマークでの有効性を示し、部位局在の影響を分析する。

提案手法

CNN特徴チャネル上に複数のアテンションマップを出力する、意味論ガイド付きマルチアテンション局在モデルを提案する。
焦点を絞りつつ多様性のある部位アテンションマップを促す、コンパクト性と多様性を用いたマルチアテンション損失を使用する。
アテンションピークに基づいて識別的な部位を切り出す微分可能な領域クロップサブネットを導入する。
全画像と切り出し部位の別々のCNNバックボーンを用いてグローバルおよびローカル特徴を学習し、埋め込みのために後期融合を用いる。
クラス間分離を最大化する埋込みソフトマックス損失と、クラス中心トリプレット損失でクラス内分散を低減する訓練を行う。
推論時には埋め込みブランチとクラスセンターブランチのスコアを結合して未見クラスを分類する。

実験結果

リサーチクエスチョン

RQ1弱教師付きのアテンション局在により、部品注釈なしで複数の識別的なオブジェクト部位をゼロショット学習のために同定できるか？
RQ2意味表現に導かれたグローバルおよびローカル特徴を共同学習することは、ゼロショット認識の性能を向上させるか？
RQ3アテンションマップのコンパクト性と多様性制約が局在精度および下流のゼロショット精度にどのように影響するか？
RQ4埋め込みソフトマックス損失とクラス中心トリプレット損失の組み合わせが特徴識別性に与える影響は？
RQ5標準ベンチマーク（CUB、FLO、AwA）でのSGMAは最先端のゼロショット手法とどの程度比較されるか？

主な発見

SGMAは標準分割で3つのゼロショット学習ベンチマーク（CUB、FLO、AwA）で最先端の結果を達成し、細分類データセットで顕著な向上を示した。
本モデルは注釈なしで2つの識別的な部位領域（heads/tails）を学習し、部位局在をランダムクロップと比較して改善し、アノテーション付き部 Detectorsに近づく。
コンパクト性と多様性損失を用いた共同訓練は、アテンションの精度と多様性を大幅に向上させ、ゼロショット性能の向上に寄与する。
埋込みソフトマックス損失とクラス中心トリプレット損失の組み合わせは、クラス間分離を高め、クラス内クラスタリングをより tight にし、識別力を高める。
一般化ゼロショット設定では、SGMAは調和平均（H）スコアをより高く達成し、特にCUBデータセットで従来法より6.7%の改善。
グローバルおよびローカル特徴のエンドツーエンド学習を組み合わせることで、ベースラインおよび競合するエンドツーエンド手法（例: LDF）よりも大幅な改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。