QUICK REVIEW

[論文レビュー] Weakly-supervised Compositional FeatureAggregation for Few-shot Recognition

Ping Hu, Ximeng Sun|arXiv (Cornell University)|Jun 11, 2019

Domain Adaptation and Few-Shot Learning参考文献 55被引用数 23

ひとこと要約

本論文では、コンポジショナル・フェイチャ・アグリゲーション（CFA）モジュールを提案する。これは弱教師ありで、プラグアンドプレイ可能な部品であり、深層特徴における意味的および空間的コンポジショナリティを強制することで、少数ショット認識を向上させる。特徴マップを独立した意味的部分空間に分離し、各部分空間内で二重積集約を適用することで、属性や部位のアノテーションを必要とせず、一般化性能を向上させる。画像およびアクション認識ベンチマークで最先端の性能を達成した。

ABSTRACT

Learning from a few examples is a challenging task for machine learning. While recent progress has been made for this problem, most of the existing methods ignore the compositionality in visual concept representation (e.g. objects are built from parts or composed of semantic attributes), which is key to the human ability to easily learn from a small number of examples. To enhance the few-shot learning models with compositionality, in this paper we present the simple yet powerful Compositional Feature Aggregation (CFA) module as a weakly-supervised regularization for deep networks. Given the deep feature maps extracted from the input, our CFA module first disentangles the feature space into disjoint semantic subspaces that model different attributes, and then bilinearly aggregates the local features within each of these subspaces. CFA explicitly regularizes the representation with both semantic and spatial compositionality to produce discriminative representations for few-shot recognition tasks. Moreover, our method does not need any supervision for attributes and object parts during training, thus can be conveniently plugged into existing models for end-to-end optimization while keeping the model size and computation cost nearly the same. Extensive experiments on few-shot image classification and action recognition tasks demonstrate that our method provides substantial improvements over recent state-of-the-art methods.

研究の動機と目的

人間が行うように、部位や属性を用いて視覚的概念をコンポジショナルにモデル化することで、少数ショット認識を向上させること。
従来の手法がプーリングによって空間的または意味的構造を失う、あるいは高価な属性アノテーションを必要とするという限界を解消すること。
弱教師ありのコンポジショナリティ正則化を備えた、プラグアンドプレイ可能なモジュールを開発すること。
モデルサイズや計算コストを増加させることなく、エンドツーエンドの訓練を可能にすること。
一般分類および細分化少数ショット分類タスク、ならびにアクション認識を含む、両方の分野で有効性を検証すること。

提案手法

CFAモジュールは、異なる属性や部位をモデル化するために、特徴空間をN個の互いに素な意味的部分空間に分割する。
各部分空間内で、単純な平均/最大プーリングの代わりに、二重積集約を適用して2次統計量を抽出し、空間的構造を捉える。
意味的プロトタイプ間の違いを促進するために、損失関数に直交制約を導入する。
最終的な記述子は、すべての部分空間からの集約特徴を連結することで得られ、判別性が高くコンポジショナルな表現が生成される。
属性や部位のアノテーションが不要であるため、エンドツーエンドの訓練が可能で、弱教師ありとなる。
CFAは、既存のモデルと互換性があり、モデルサイズや推論コストを維持するように設計されたプラグインレイヤーである。

実験結果

リサーチクエスチョン

RQ1深層特徴における意味的および空間的コンポジショナリティを強制することで、少数ショット認識性能が向上するか？
RQ2属性や部位のアノテーションを一切必要とせず、コンポジショナリティを効果的に学習できるか？
RQ3意味的部分空間の数（N）が、異なるデータセットでの性能にどのように影響するか？
RQ4提案されたCFAモジュールは、一般分類から細分化分類へのドメイン間移行においても、十分に一般化できるか？
RQ5直交制約の重み（γ）が、クラス内およびクラス間分散の異なるデータセットにおける表現品質にどのように影響するか？

主な発見

miniImageNetでは、CFA（N=64）が1ショット設定で44.2％の精度を達成し、以前の最先端手法を上回った。
CUBデータセットでは、CFA（N=64）が5ショット設定で66.0％の精度に達し、細分化分類において優れた性能を示した。
アクション認識のタスクでは、JesterデータセットでCFA（N=64）が1ショット設定で23.9％の精度を記録し、動画タスクにおいても有効性を示した。
アブレーションスタディの結果、意味的部分空間内での二重積集約（CFA、N=64）は、単純なプーリング（CFA、N=1）を著しく上回り、特に1ショット学習において顕著な向上が見られた。
ドメイン間転送の結果、CFAはベースラインより優れた一般化性能を示した：IMN→CUBの設定で、CFA（N=64）は44.2％を達成したのに対し、MatchingNetは37.4％であった。
最適な部分空間数（N）はデータセットによって異なる：CUBではN=64、JesterではN=4が最良の性能を示し、データセットに応じた最適な属性グループ化が存在することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。