Skip to main content
QUICK REVIEW

[論文レビュー] CrossTransformers: spatially-aware few-shot transfer

Carl Doersch, Ankush Gupta|arXiv (Cornell University)|Jul 22, 2020
Domain Adaptation and Few-Shot Learning参考文献 100被引用数 58
ひとこと要約

本論文はニューラル表現における監視情報の崩壊を明らかにし、自己教師付きのSimCLRエピソードと空間認識型のCrossTransformerアーキテクチャを用いてfew-shot転送を改善する手法を提案し、Meta-Datasetで最新の結果を達成した。

ABSTRACT

Given new tasks with very little data$-$such as new classes in a classification problem or a domain shift in the input$-$performance of modern vision systems degrades remarkably quickly. In this work, we illustrate how the neural network representations which underpin modern vision systems are subject to supervision collapse, whereby they lose any information that is not necessary for performing the training task, including information that may be necessary for transfer to new tasks or domains. We then propose two methods to mitigate this problem. First, we employ self-supervised learning to encourage general-purpose features that transfer better. Second, we propose a novel Transformer based neural network architecture called CrossTransformers, which can take a small number of labeled images and an unlabeled query, find coarse spatial correspondence between the query and the labeled images, and then infer class membership by computing distances between spatially-corresponding features. The result is a classifier that is more robust to task and domain shift, which we demonstrate via state-of-the-art performance on Meta-Dataset, a recent dataset for evaluating transfer from ImageNet to many other vision datasets.

研究の動機と目的

  • 限られたラベルデータでタスク・ドメインシフトに対するビジョンシステムの堅牢性を動機づける。
  • 特徴が転送に必要な情報を失う監視崩壊を特定する。
  • 一般用途の特徴を保持する自己教師付き学習を提案する。
  • Few-shot分類のために局所的で空間に整列した比較を行うCrossTransformersを導入する。
  • Meta-Datasetで転送ゲインを多様なデータセットを横断して示す。

提案手法

  • MDエピソードとして再定式化したSimCLR風の自己教師付き学習を用いて転送可能な埋め込みを生成する。
  • 最終的な空間プーリングを削除して空間構造を保持しつつ、Prototypical Netsを基盤として採用する。
  • クエリとサポート画像間の注意機構ベースの局所対応を通じてクエリに整合したプロトタイプを計算するCrossTransformersを導入する。
  • クエリ特徴と整列した局所プロトタイプ間の距離を計算してクラス確率を予測する。
  • サポートとクエリ間で値ヘッドを共有し、距離尺度のように振る舞う。
  • さらにグローバル特徴を用いたオプションやテスト時のロジスティック回帰を加えて特定のデータセットを後押しする。

実験結果

リサーチクエスチョン

  • RQ1自己教師付き学習は監視崩壊を緩和し、few-shotシナリオで転送を改善できるか。
  • RQ2CrossTransformersのような空間認識型アーキテクチャは見知らぬクラスやドメインへの一般化を改善するか。
  • RQ3SimCLRエピソードとアーキテクチャの選択はMeta-Datasetの性能にどのように影響するか。
  • RQ4追加の拡張やテスト時分類子の導入がCrossTransformersに与える影響はどの程度か。
  • RQ5局所的パーツベースの対応付けは細分類・跨ドメイン認識をどの程度支援するか。

主な発見

  • 自己教師付きのSimCLR風エピソードは、特にImageNetから遠いデータセットに対してfew-shot転送を改善する。
  • CrossTransformersはMeta-Datasetで強力な性能とベースラインよりも良い平均順位を提供する。
  • CrossTransformersとSimCLRエピソードおよび拡張を組み合わせると、Meta-Datasetのほとんどのデータセットで最先端の結果を達成する。
  • アテンションの可視化は意味のある、必ずしも一対一ではない局所性の整合をクエリとサポート画像間で示す。
  • グローバル特徴とテスト時のロジスティック回帰は特定のデータセット(例: DTD)を後押しする一方で他を損ねる可能性があり、グローバルとローカル表現のトレードオフを浮き彫りにする。
  • ネットワーク容量の増加と入力解像度の向上はデータセット間で混合した影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。