QUICK REVIEW

[論文レビュー] A causal view of compositional zero-shot recognition

Yuval Atzmon, Felix Kreuk|arXiv (Cornell University)|Jun 25, 2020

Domain Adaptation and Few-Shot Learning参考文献 64被引用数 59

ひとこと要約

この論文は構成的ゼロショット認識を因果的介入として位置づけ、因果に触発された埋め込みモデルを提案。属性とオブジェクトの表現を分離学習し、AO-CLEVrとZapposデータセットで unseen 構成の一般化を向上。

ABSTRACT

People easily recognize new visual categories that are new combinations of known components. This compositional generalization capacity is critical for learning in real-world domains like vision and language because the long tail of new combinations dominates the distribution. Unfortunately, learning systems struggle with compositional generalization because they often build on features that are correlated with class labels even if they are not "essential" for the class. This leads to consistent misclassification of samples from a new distribution, like new combinations of known components. Here we describe an approach for compositional generalization that builds on causal ideas. First, we describe compositional zero-shot learning from a causal perspective, and propose to view zero-shot inference as finding "which intervention caused the image?". Second, we present a causal-inspired embedding model that learns disentangled representations of elementary components of visual objects from correlated (confounded) training data. We evaluate this approach on two datasets for predicting new combinations of attribute-object pairs: A well-controlled synthesized images dataset and a real-world dataset which consists of fine-grained types of shoes. We show improvements compared to strong baselines.

研究の動機と目的

構成一般化を動機づけ、ゼロショット認識における分布シフトとエンタングルメントを主要な課題として特定する。
属性とオブジェクトの介入によって unseen な組み合わせを明らかにする因果生成モデルを提案する。
属性とオブジェクトの分離された因果安定表現を学習する埋め込みベースのアーキテクチャを開発する。
コア因子の独立性と埋め込みの可逆性を強制する損失項を導入する。
AO-CLEVrとZapposでアプローチを評価し、強力なベースラインに対して性能向上を示す。

提案手法

画像を二つの基本因子: 属性 a とオブジェクト o、潜在コア特徴 φa と φo をそれぞれの空間 ΦA と ΦO に置くモデル。
do-介入フレームワークを用いて pdo(x) = p(x|a,o) を定義し、どの介入が画像を生み出したかを評価する。
属性/オブジェクトをコア特徴へとエンコードし、画像空間へ戻す mappings ha, ho, g を学習し、尤度推定 p(x|a,o) を可能にする。
負の対数尤度を tractable な式 lâˆ’L(a,o) で近似し、属性/プロトタイプ ha, ho への距離と g(ha,ho) による画像再構成誤差を組み込む。
三つの損失を課す: データ尤度損失（再構成とトリプレット項）、介入下で φa と φo を条件付き独立にする HSIC による独立性損失、埋め込みの情報をラベルに保つための可逆性埋め込み損失。
5つの学習マッピング ha, ho, ga とその逆関数を、MLP を用いて学習して訓練する。

実験結果

リサーチクエスチョン

RQ1属性とオブジェクトの介入を用いた因果的視点は、ロバストな構成的ゼロショット認識を可能にするか？
RQ2分離されたコア特徴表現 φa と φo は unseen な属性-オブジェクトの組み合わせへ安定した一般化をもたらすか？
RQ3φa と φo の独立性を強制することは、新規構成の認識にどのように影響するか？
RQ4提案手法は real and synthetic datasets で discriminative baseline や prior CZSR アプローチと比較してどうか？

主な発見

因果的アプローチは AO-CLEVr で unseen 精度をベースラインより改善。例えば vanilla baseline (LE) の unseen 精度は 26%、一方因果法は約 47% に達する。
識別的バリアント (VisProd&CI) を追加すると unseen 精度が VisProd に比べ 19%→38% に上昇、ただし seen 精度はトレードオフ。
AO-CLEVr の交差検証では、コア特徴をモデル化することで seen と unseen の精度のトレードオフが改善され、 unseen 比率の調和平均が向上。
評価は AO-CLEVr (synthetic) と Zappos (real-world shoes) の open/closed (generalized) zero-shot 設定で、因果モデルの堅牢な性能向上を示す。
独立性制約 HSIC を介して φa と φo が介入に対して堅牢になるよう促すことを含み、分離性と一般化に貢献。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。