Skip to main content
QUICK REVIEW

[論文レビュー] Transductive Zero-Shot Learning with Visual Structure Constraint

Ziyu Wan, Dongdong Chen|arXiv (Cornell University)|Jan 6, 2019
Domain Adaptation and Few-Shot Learning参考文献 42被引用数 46
ひとこと要約

本論文は、三つの視覚的構造制約(Chamfer-distance、二部グラフマッチング、ワッサーシュタイン距離)を導入し、転導型ゼロショット学習設定で未見クラスのセンターを実際の視覚クラスタに合わせて、合成センターと実データの視覚クラスを整合させる。これにより射影学習を改善し、関連性のない画像を含むラベリングなしテストデータの処理にも対応する。

ABSTRACT

To recognize objects of the unseen classes, most existing Zero-Shot Learning(ZSL) methods first learn a compatible projection function between the common semantic space and the visual space based on the data of source seen classes, then directly apply it to the target unseen classes. However, in real scenarios, the data distribution between the source and target domain might not match well, thus causing the well-known \textbf{domain shift} problem. Based on the observation that visual features of test instances can be separated into different clusters, we propose a new visual structure constraint on class centers for transductive ZSL, to improve the generality of the projection function (i.e. alleviate the above domain shift problem). Specifically, three different strategies (symmetric Chamfer-distance, Bipartite matching distance, and Wasserstein distance) are adopted to align the projected unseen semantic centers and visual cluster centers of test instances. We also propose a new training strategy to handle the real cases where many unrelated images exist in the test dataset, which is not considered in previous methods. Experiments on many widely used datasets demonstrate that the proposed visual structure constraint can bring substantial performance gain consistently and achieve state-of-the-art results. The source code is available at \url{https://github.com/raywzy/VSC}.

研究の動機と目的

  • テストデータの視覚的構造を活用して、ゼロショット学習におけるドメインシフトに対処する。
  • 見られないクラスの射影セントを実際の視覚セントに揃えることで、射影学習を向上させる。
  • テストセットに多くの関連性のない画像が存在する現実的なテストシナリオに対処する。
  • 新しいデータに対してバッチ再最適化を回避することで、オンラインでスケーラブルなトランザクティブZSLを可能にする。

提案手法

  • 未見クラスのセマンティクスを視覚埋め込み空間に射影するため、2層の埋め込みネットワークを用いる。
  • ソースドメインの射影制約と、合成センターを実際の視覚センターに揃える視覚構造制約を併用して訓練する。
  • 3つの制約変種: Chamfer-distance ベースの視覚構造制約(CDVSc)、二部グラフマッチングベースの視覚構造制約(BMVSc)、Wasserstein-distance ベースの視覚構造制約(WDVSc)。
  • CDVSc は、合成センターと unseen データの K-means クラスタ中心との対称Chamfer距離を用いる;ロスはセンター間のL2距離を追加する。
  • BMVSc は、1対1の割り当てを最小重み完全マッチングとして定式化し、Kuhn–Munkresアルゴリズムで解く;ロスはMSEとこの割り当てを組み合わせる。
  • WDVSc は情報エントロピー正則化された最適輸送(Sinkhorn)を用い、ソフト割り当てを許し、アライメントを安定化させる。

実験結果

リサーチクエスチョン

  • RQ1未見クラスのテストデータの視覚構造を活用して、転導ZSLにおける射影学習を改善できるか?
  • RQ2Chamfer、二部グラフマッチング、Wassersteinベースの制約は、ベンチマーク全体で一貫した性能向上をもたらすか?
  • RQ3関連性のない画像を含む現実的なテストデータを方法はどう扱うか?
  • RQ4属性と語彙ベクトルなど、異なるセマンティックスペースと、変動するクラスタ数Kに対して、アプローチは効果的か?

主な発見

  • 提案された視覚構造制約は、従来の手法に対して、従来型および一般化ZSL設定の複数データセットで顕著な性能向上をもたらす。
  • 3つの制約(CDVSc、BMVSc、WDVSc)は一貫して精度を向上させ、WDVSc はしばしば最高結果を達成する。
  • 新しい訓練戦略により、テストデータに関連性のない画像が含まれる現実的な設定でも手法を動作させ、性能を維持する。
  • 語彙ベクトルベースの空間を含む異なるセマンティックスペースに対して頑健であり、より大きなK(より細かな視覚構造)により、データセットの限界まで恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。