QUICK REVIEW

[論文レビュー] Preserving Semantic Relations for Zero-Shot Learning

Yashas Annadani, Soma Biswas|arXiv (Cornell University)|Mar 8, 2018

Domain Adaptation and Few-Shot Learning参考文献 34被引用数 79

ひとこと要約

この論文は、同一・類似・異なる関係を関係認識型のエンコーダ–デコーダフレームワークとしてモデル化することで、クラス間の意味的関係を埋め込み空間で保持することを提案し、いくつかのゼロショットおよび一般化ゼロショットベンチマークで最先端の結果を達成し、いくつかのクラス埋め込みが入手不能な場合にも近似的な意味推論を可能にする。

ABSTRACT

Zero-shot learning has gained popularity due to its potential to scale recognition models without requiring additional training data. This is usually achieved by associating categories with their semantic information like attributes. However, we believe that the potential offered by this paradigm is not yet fully exploited. In this work, we propose to utilize the structure of the space spanned by the attributes using a set of relations. We devise objective functions to preserve these relations in the embedding space, thereby inducing semanticity to the embedding space. Through extensive experimental evaluation on five benchmark datasets, we demonstrate that inducing semanticity to the embedding space is beneficial for zero-shot learning. The proposed approach outperforms the state-of-the-art on the standard zero-shot setting as well as the more realistic generalized zero-shot setting. We also demonstrate how the proposed approach can be useful for making approximate semantic inferences about an image belonging to a category for which attribute information is not available.

研究の動機と目的

新規カテゴリを新しいラベリングデータなしに認識するゼロショット学習を、属性/単語埋め込みなどの意味記述を活用して動機づける。
意味空間の構造を画像埋め込み空間に分解し、それを同一のクラス関係、意味的に類似するクラス関係、意味的に非類似のクラス関係に分解する。
関係認識型の目的と再構成を課す訓練可能なエンコーダ–デコーダモデルを開発し、ZSLおよび一般化ZSLの性能を向上させる。
意味関係を保持することが、見られるクラスの識別性を改善しつつ未見のクラスへの一般化を促進し、いくつかの埋め込みが欠けている場合にも近似的な意味推論を可能にすることを示す。

提案手法

クラス埋め込みを視覚空間（埋め込み空間）へ写像するエンコーダ f(y; theta_f)と、入力を再構成するデコーダ g(x; theta_g) を用いる。
意味空間を関係に分解する：同一 (delta=1)、意味的に類似 (tau <= delta < 1)、意味的に非類似 (delta < tau) はクラス埋め込み間のコサイン類似度 delta に基づく。
3つの目的項を導入する：O1 は適応型ヒンジ様損失で同一ペアと異なるペアを揃える；O2 は意味的に類似するクラスの類似性を強制しつつ、異なるクラスに対する限界を尊重する；O3 再構成損失 ||y_r - hat{y}_r||^2 でエンコーダを正則化。
四重組み込み様様（y_r, x_i, x_j, x_k）を用いて同一・類似・非類似の関係を符号化し、オンライン難正負マイニングで更新に有益な組を選択する。
訓練は、結合目的 O = (1/|B|) sum_B (O1 + lambda1 * O2 + lambda2 * O3) で行い、視覚空間での最近傍推論を class c_r のとき s(f(y^c_r), x^u) を用いて実施する。
候補 p を用いて x_j（類似）と x_k（非類似）を効率的にサンプリングし、最も損失項が大きいもので更新して全候補に対するハードマイニングを避け、収束を改善する。

実験結果

リサーチクエスチョン

RQ1意味空間におけるクラス埋め込みの意味構造を保持することは、ゼロショット認識性能を向上させるか。
RQ2関係認識型のエンコーダ–デコーダフレームワークは、標準および一般化ZSLベンチマークで最先端のZSL手法を上回ることができるか。
RQ3提案手法は大規模データセット（例: ImageNet）でどう機能し、一部埋め込みが利用できない場合に近似的な意味推論をサポートできるか。
RQ4各コンポーネント（関係保持、再構成損失）が全体の性能にどの程度寄与するか。

主な発見

手法	SUN	AWA2	CUB	aPY
DAP	39.9	46.1	40.0	33.8
IAP	19.4	35.9	24.0	36.6
CONSE	38.8	44.5	34.3	26.9
CMT	39.9	37.9	34.6	28.0
SSE	58.5	54.9	49.2	34.8
LATEM	55.3	55.8	49.3	35.2
ALE	58.1	62.5	54.9	39.7
DEVISE	56.5	59.7	52.0	39.8
SJE	53.7	61.9	53.9	32.9
ESZSL	54.5	58.6	53.9	38.3
SYNC	56.3	46.6	55.6	23.9
SAE	40.3	54.1	33.3	8.3
MSE+Recons.(B1)	58.5	54.9	49.2	34.8
Proposed - O2(B2)	57.1	57.2	51.5	31.6
Proposed - O3(B3)	58.7	62.4	52.7	37.2
Proposed	61.4	63.8	56.0	38.4

従来のZSL設定でSUN、AWA2、CUBにおいて最先端の結果を達成。
強力な一般化ZSL性能を、SUN、AWA2、CUB、aPYデータセットで調和平均が競争力を持つ形で得る。
大規模ImageNetにおいて、従来型および一般化ZSL設定のいずれにおいても競合手法を上回る。
埋め込みが利用不能なカテゴリでも、コサイン類似度に基づく意味的関連性を利用して意味的に関連する既知カテゴリを提案できる近似的意味推論を実証。
提案されたO1–O3フレームワークによるタプルマイニングは、収束を速め、更新を堅牢にする（約5エポック程度で早期利得）。
ベースラインを通じて、意味関係を保持すること（O2）は顕著な利得をもたらし、特にクラス間意味が広い粗い粒度のデータセットでは効果が大きい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。