Skip to main content
QUICK REVIEW

[論文レビュー] Compact Bilinear Pooling

Yang Gao, Oscar Beijbom|arXiv (Cornell University)|Nov 19, 2015
Advanced Neural Network Applications参考文献 43被引用数 46
ひとこと要約

本論文は、250,000次元に達する高次元の双線形特徴をわずか8,192次元に圧縮する2つのコンactな双線形プーリング手法—テンソルスケッチ(TS)とランダムマッピング(RM)—を提案する。多項式カーネルのカーネル化解析を活用し、エンドツーエンドのバックプロパゲーションを可能にすることで、画像分類および少サンプル学習において最先端の性能を達成するとともに、効率的なストレージとデプロイメントを実現する。

ABSTRACT

Bilinear models has been shown to achieve impressive performance on a wide range of visual tasks, such as semantic segmentation, fine grained recognition and face recognition. However, bilinear features are high dimensional, typically on the order of hundreds of thousands to a few million, which makes them impractical for subsequent analysis. We propose two compact bilinear representations with the same discriminative power as the full bilinear representation but with only a few thousand dimensions. Our compact representations allow back-propagation of classification errors enabling an end-to-end optimization of the visual recognition system. The compact bilinear representations are derived through a novel kernelized analysis of bilinear pooling which provide insights into the discriminative power of bilinear pooling, and a platform for further research in compact pooling methods. Experimentation illustrate the utility of the proposed representations for image classification and few-shot learning across several datasets.

研究の動機と目的

  • 双線形プーリング特徴の高次元性(250,000次元以上)が、分類、リtrieval、少サンプル学習の実用的デプロイメントを妨げる問題に対処すること。
  • 完全な双線形プーリングの識別力を保持しつつ、特徴次元を大幅に削減するコンパクトな双線形表現を開発すること。
  • エンドツーエンドのバックプロパゲーションをコンパクトプーリング層を介して可能にし、認識パイプライン全体の共同最適化を可能にすること。
  • 双線形プーリングのためのカーネル化理論的枠組みを提供し、提案手法の導出と正当化を支援すること。
  • 画像リtrieval、埋め込みデプロイメント、少サンプル学習などの実世界のシナリオにおけるコンパクトな双線形プーリングの有効性を示すこと。

提案手法

  • 本手法は、ランダム化された特徴マップを用いて、高次元の双線形特徴を8,192次元の低次元空間に射影するテンソルスケッチ(TS)とランダムマッピング(RM)を採用する。
  • 特に2次多項式カーネルに焦点を当て、双線形プーリングと多項式カーネルの関係を活用し、計算効率の良い明示的特徴マップを導出する。
  • Kar(2012)およびPham(2013)の多項式カーネル近似のためのランダム化プロジェクションに基づくアプローチを、双線形プーリング設定に適応する。
  • ランダム化プロジェクションの勾配を用いて、コンパクトな双線形層を効率的にバックプロパゲーション可能にし、ディープネットワークのエンドツーエンド学習を可能にする。
  • 各活性化マップにスケッチ変換を適用した後、空間的位置にわたるコンパクト特徴を合計プーリングすることで、グローバルなコンパクト記述子を取得する。
  • CaffeおよびMatConvNetに実装されており、再現性と統合のための公開コードが提供されている。

実験結果

リサーチクエスチョン

  • RQ1双線形プーリング特徴を、識別力の著しい損失なしに数千年次元に圧縮できるか?
  • RQ2エンドツーエンドのバックプロパゲーションを介して、コンパクトな双線形プーリングをディープニューラルネットワークに統合できるか?
  • RQ3双線形プーリングのカーネル化解釈が、コンパクト表現の導出に原理的根拠を提供できるか?
  • RQ4Fisherベクトルや全結合プーリングと比較して、コンパクトな双線形プーリングは画像分類および少サンプル学習で最先端の性能を達成できるか?
  • RQ5コンパクトな双線形プーリングは、少サンプル学習のような低データレジームで性能向上をもたらすか?

主な発見

  • テンソルスケッチ(TS)を用いたコンパクトな双線形プーリングは、CUB-200-2011のテクスチャ分類データセットで32.29%の誤差率を達成し、Fisherベクトルを上回り、完全な双線形プーリングと同等の性能(8,192次元)を発揮した。
  • MIT Indoorシーンデータセットでは、TSが1.06%の誤差率を達成し、Fisherベクトルを2.09%上回り、250,000Dから8,192Dへの96.5%の圧縮率で完全な双線形プーリングと同等の性能を示した。
  • CUBで1クラスあたり1サンプルの少サンプル学習において、TSは15.5%の精度を達成し、完全な双線形プーリング(12.7%)を2.9%の絶対的向上で上回り、低データレジームにおける優れた一般化性能を示した。
  • 3サンプル/クラスの状況でも、完全な双線形プーリングとTSとの性能差は2.5%で安定しており、低次元特徴が一貫した利点をもたらすことを示した。
  • 微調整は完全な双線形プーリングおよびコンパクトな双線形プーリングの両方の性能を低下させた。これは、高次元表現が小規模データセットにおいて過学習に対してより感受性である可能性を示唆した。
  • 特徴次元を250,000Dから8,192Dに96.5%まで削減でき、デプロイメントおよびリtrievalのためのモデルパラメータ数とストレージ要件を顕著に削減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。