[論文レビュー] Cross Attention Network for Few-shot Classification
CANは、クラス特徴とクエリ特徴間の意味的関連性をモデリングしてターゲットオブジェクトをハイライトするクロスアテンションモジュールを導入し、信頼できるクエリサンプルでサポートを拡張するトランザクティブ推論ステップを追加することで、few-shotベンチマークで最先端の結果を達成します。
Few-shot classification aims to recognize unlabeled samples from unseen classes given only few labeled samples. The unseen classes and low-data problem make few-shot classification very challenging. Many existing approaches extracted features from labeled and unlabeled samples independently, as a result, the features are not discriminative enough. In this work, we propose a novel Cross Attention Network to address the challenging problems in few-shot classification. Firstly, Cross Attention Module is introduced to deal with the problem of unseen classes. The module generates cross attention maps for each pair of class feature and query sample feature so as to highlight the target object regions, making the extracted feature more discriminative. Secondly, a transductive inference algorithm is proposed to alleviate the low-data problem, which iteratively utilizes the unlabeled query set to augment the support set, thereby making the class features more representative. Extensive experiments on two benchmarks show our method is a simple, effective and computationally efficient framework and outperforms the state-of-the-arts.
研究の動機と目的
- few-shot分類における未見クラスと少データに起因する識別可能性の不安定さを解消する。
- クラス特徴とクエリ特徴間の相関を学習してターゲット領域をハイライトするCross Attention Module (CAM) を提案する。
- ラベルなしのクエリサンプルを用いてクラス表現を豊富にするトランザクティブ推論アルゴリズムを導入する。
- CANが単純で効率的で、標準ベンチマークで最先端の結果を達成することを示す。
提案手法
- クラス特徴マップとクエリ特徴マップ間のクロスアテンションマップを相関層とメタフュージョン層を介して計算するCross Attention Module (CAM) を導入する。
- 局所特徴のコサイン類似度からクラス相関マップ R^p とクエリ相関マップ R^q を計算し、メタラーナーを通じてカーネル w を出力するアテンションマップ A^p と A^q を生成する。
- 残差アテンションを適用して特徴を 1 + A^p と 1 + A^q で重み付けし、識別性の高い P̄ と Q̄ を得る。
- 訓練は L = λL1 + L2 のジョイント損失で行い、L1 は最近傍ベースのローカル監視、L2 はグローバル分類損失である。
- 推論時には、誘導的またはトランザクティブ戦略を使用する。トランザクティブ推論はサポートセットを疑似ラベリングされたクエリサンプルで拡張して、クラス特徴を反復的に改良する。
- 必要に応じて CAM を他のモデル(例えば Matching Network、Prototypical Network、Relation Network)へトランザクティブ推論で拡張する。
![Figure 1: An example of the class activation maps [ 44 ] of training and test images of existing method [ 32 ] and our method CAN. Warmer color with higher value.](https://ar5iv.labs.arxiv.org/html/1910.07677/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1サポート(クラス)とクエリ特徴間のクロスアテンションは、見ていないクラスの識別性を向上させるか。
- RQ2信頼できる疑似ラベル付きクエリサンプルでサポートセットを拡張するトランザクティブ推論戦略は、低データ条件下で性能を向上させるか。
- RQ3CAM アプローチは標準的な few-shot ベンチマークで実用的な計算効率を持つか。
- RQ4CAM ガイド付き特徴は、複数データセットにわたって誘導的・トランザクティブの両方の few-shot 分類設定を改善するか。
主な発見
| モデル | 埋め込み | IT(s) | miniImageNet 1-shot | miniImageNet 5-shot | tieredImageNet 1-shot | tieredImageNet 5-shot |
|---|---|---|---|---|---|---|
| CAN | ResNet-12 | 0.044 | 63.85 ± 0.48 | 79.44 ± 0.34 | 69.89 ± 0.51 | 84.23 ± 0.37 |
| CAN+T | ResNet-12 | - | 67.19 ± 0.55 | 80.64 ± 0.35 | 73.21 ± 0.58 | 84.93 ± 0.38 |
- CAN は miniImageNet および tieredImageNet で 5-way 1-shot および 5-way 5-shot の設定で最先端の結果を達成。
- CAN+.T(トランザクティブ CAN)は、報告されたベンチマークで 1-shot で最大 8%、5-shot で最大 5% の従来のトランザクティブ手法を上回る。
- アブレーション研究は、グローバル分類損失とクロスアテンションモジュールが性能を大幅に改善し、CAM のメタラーナーが適応カーネルを効果的に生成することを示す。
- CAN に特化したトランザクティブ推論は、他の few-shot モデル(Matching Network、Prototypical Network、Relation Network)を改善するために一般化できる。
- CAN は CAM の効率的な相関ベースのアテンションと軽量なメタラーナーのおかげで、計算オーバーヘッドとパラメータ数を控えめに保ちながらこれらの利得を達成する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。