Skip to main content
QUICK REVIEW

[論文レビュー] Independent Prototype Propagation for Zero-Shot Compositionality

Frank Ruis, Gertjan J. Burghouts|arXiv (Cornell University)|Jun 1, 2021
Domain Adaptation and Few-Shot Learning参考文献 35被引用数 23
ひとこと要約

本稿では、合成ゼロショット学習のための新規なプロトタイプ伝播手法であるProtoPropを提案する。本手法は、物体と属性のための条件付き独立な視覚的プロトタイプを学習し、それらを合成的グラフを通じて組み合わせることで、未学習の属性-物体コンポジションを認識する。AO-ClevrおよびUT-Zapposのベンチマークで最先端の性能を達成し、外部埋め込みやクラス階層に依存せずに、それぞれ2.5%および3.1%の調和平均精度の向上を達成した。

ABSTRACT

Humans are good at compositional zero-shot reasoning; someone who has never seen a zebra before could nevertheless recognize one when we tell them it looks like a horse with black and white stripes. Machine learning systems, on the other hand, usually leverage spurious correlations in the training data, and while such correlations can help recognize objects in context, they hurt generalization. To be able to deal with underspecified datasets while still leveraging contextual clues during classification, we propose ProtoProp, a novel prototype propagation graph method. First we learn prototypical representations of objects (e.g., zebra) that are conditionally independent w.r.t. their attribute labels (e.g., stripes) and vice versa. Next we propagate the independent prototypes through a compositional graph, to learn compositional prototypes of novel attribute-object combinations that reflect the dependencies of the target distribution. The method does not rely on any external data, such as class hierarchy graphs or pretrained word embeddings. We evaluate our approach on AO-Clever, a synthetic and strongly visual dataset with clean labels, and UT-Zappos, a noisy real-world dataset of fine-grained shoe types. We show that in the generalized compositional zero-shot setting we outperform state-of-the-art results, and through ablations we show the importance of each part of the method and their contribution to the final results.

研究の動機と目的

  • 訓練例のない状況下で、特に長尾分布にさらされる状況において、新しい属性-物体コンポジションを認識する課題に対処すること。
  • ゼロショット学習における一般化を妨げる訓練データ内の誤った相関関係を軽減すること。
  • 視覚的プリミティブ(物体と属性)を独立して活用しつつ、未学習クラスのための意味のある合成的依存関係を捉える方法を開発すること。
  • 単語埋め込みやクラス階層グラフなどの外部リソースに依存しないこと。
  • 統一的かつ微分可能なフレームワークを通じて、見慣れたクラスおよび未見のクラスの両方の精度を向上させること。

提案手法

  • バックボーンネットワークを用いて、空間的アテンションベースのプーリングにより判別性の高いパッチを抽出することで、視覚的プリミティブ(物体および属性)の局所的でプロトタイプ的な表現を学習する。
  • ヒルバート=シュミット独立性基準(HSIC)損失を用いて、物体と属性プロトタイプ間の条件付き独立性を強制し、誤った相関関係を低減する。
  • 共通の属性と物体(例:トラとシマウマは両方ともストライプを持つ)の関係をモデル化する合成的グラフを通じて、プロトタイプを伝播させ、未学習のコンポジションを生成可能にする。
  • グラフニューラルネットワーク(GNN)が、プロトタイプグラフ上でメッセージパッシングを実行し、見慣れたおよび未学習の組み合わせのための合成的プロトタイプを生成する。
  • バックボーンをプロトタイプ損失および独立性損失とともにエンドツーエンドで微調整することで、特徴抽出器がより関連性の高い局所的特徴を学習できるようにする。
  • 本手法は外部の意味的または構造的データに依存しない画像レベルの属性および物体のアノテーションのみを用いる。

実験結果

リサーチクエスチョン

  • RQ1物体と属性のための条件付き独立な視覚的プロトタイプを学習することで、合成的ゼロショット学習を改善できるか?
  • RQ2独立したプロトタイプを合成的グラフを通じて伝播させることで、未学習の属性-物体コンポジションにおける一般化性能が向上するか?
  • RQ3独立性損失は、誤った相関関係を保持するモデルと比較して、見慣れたクラスおよび未学習クラスの両方の性能にどのように影響するか?
  • RQ4本手法は、外部の意味的または構造的事前知識に依存しない状況で、既存の最先端手法をどの程度上回るか?
  • RQ5局所的プロトタイプ、独立性損失、バックボーンの微調整といった各コンポONENTの貢献度はどの程度か?

主な発見

  • AO-Clevrベンチマークでは、既存の最良手法よりも2.5%から20.2%の調和平均精度の向上を達成し、特に挑戦の高い4:6スプリットで最大の向上を示した。
  • UT-Zapposデータセットでは、前回の最先端手法と比較して、調和平均精度が3.1%向上した。
  • 独立性損失は極めて重要である:これを削除すると、見慣れたクラスおよび未学習クラスの精度が10ポイント以上著しく低下した。
  • 学習された視覚的プロトタイプをノード特徴として用いることで、語彙的埋め込み(例:word2vec)を用いる手法よりも調和平均精度で2.5%高い性能を達成した。
  • 分類に使用されない場合でも、局所的プロトタイプの学習はバックボーンの特徴抽出能力を向上させ、平均で0.8%の精度向上をもたらした。
  • 本手法は、バックボーンを固定した状態でも強力な性能を発揮し、全手法の94.8%の精度をわずかに時間の一部で達成でき、堅牢性と効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。