Skip to main content
QUICK REVIEW

[論文レビュー] Learning Deep Bilinear Transformation for Fine-grained Image Representation

Heliang Zheng, Jianlong Fu|arXiv (Cornell University)|Nov 9, 2019
Advanced Neural Network Applications被引用数 52
ひとこと要約

深層バイリニア変換(DBT)ブロックを導入し、意味的にグループ化された特徴チャネル内のグループ内バイリニア相互作用を学習させ、CNNでの深い積み重ねを可能にし、計算量を低減して、いくつかのファイングレードベンチマークで最先端の結果を達成します。

ABSTRACT

Bilinear feature transformation has shown the state-of-the-art performance in learning fine-grained image representations. However, the computational cost to learn pairwise interactions between deep feature channels is prohibitively expensive, which restricts this powerful transformation to be used in deep neural networks. In this paper, we propose a deep bilinear transformation (DBT) block, which can be deeply stacked in convolutional neural networks to learn fine-grained image representations. The DBT block can uniformly divide input channels into several semantic groups. As bilinear transformation can be represented by calculating pairwise interactions within each group, the computational cost can be heavily relieved. The output of each block is further obtained by aggregating intra-group bilinear features, with residuals from the entire input features. We found that the proposed network achieves new state-of-the-art in several fine-grained image recognition benchmarks, including CUB-Bird, Stanford-Car, and FGVC-Aircraft.

研究の動機と目的

  • ファイングレード認識のための伝統的なバイリニアプーリングの高い計算コストを動機づけて対処する。
  • 意味グルーピング内でバイリニア相互作用を学習する深層バイリニア変換(DBT)ブロックを提案する。
  • 特徴次元を増やすことなくCNN内でDBTブロックの深い積み重ねを可能にする。
  • DBTをCNNバックボーンに組み込むことで複数のファイングレードデータセットで最先端の性能を示す。

提案手法

  • 意味情報に基づいて入力チャネルを均等にGグループに分割する意味的グルーピングを導入する。
  • 各意味グループ内でグループ内バイリニア変換を適用し、識別に有用なペアワイズ相互作用を捉える。
  • グループの順序をグループインデックスエンコーディングで保持しつつ、グループ間でグループ内バイリニア特徴を集約する。
  • 元の特徴とバイリニア特徴を融合させる残差接続を用い、融合前にtanh活性化を適用する。
  • DBTブロックをResNet様のアーキテクチャに組み込みDBTNetを形成し、意味的グルーピング制約を含む学習損失を用いる。

実験結果

リサーチクエスチョン

  • RQ1意味ガイド付きグルーピングはファイングレード認識のための深層CNN内で効果的かつ効率的なバイリニア相互作用を可能にするか?
  • RQ2DBTブロックの深い積み重ねは標準的なファイングレードデータセットでベースラインCNNや既存のバイリニアプーリング手法より利得を生むか?
  • RQ3意味的グルーピング損失、グループインデックスエンコーディング、残差接続が性能と最適化に与える影響は何か?
  • RQ4CUB-200-2011、Stanford-Car、FGVC-Aircraft、および大規模データセットiNaturalistにおいてDBTNetは最先端のバイリニアおよび二次順プーリング手法とどのように比較されるか?

主な発見

アプローチ次元CUB-200-2011Stanford-CarAircraft
コンパクトバイリニア14k81.688.681.6
カーネルプーリング14k84.791.185.7
iSQRT-COV8k87.391.789.5
iSQRT-COV32k88.192.890.0
DBTNet-50(我々の)2k87.594.191.2
DBTNet-101(我々の)2k88.194.591.6
  • DBTNetは深いCNNに統合した場合、CUB-200-2011、Stanford-Car、およびFGVC-Aircraftで新たな最先端結果を達成する。
  • DBTNet-50(最終層バイリニア特徴2k次元) は87.5%(CUB-200-2011)、94.1%(Stanford-Car)、91.2%(Aircraft)を達成。
  • DBTNet-101(最終層2k次元) 88.1%、94.5%、91.6%。
  • Compact Bilinear、Kernel Pooling、iSQRT-COVと比較して、DBTNetは3つのファイングレードデータセット全体で明確な精度利点を示す。
  • iNaturalist-2017の大規模データ結果はDBTNet-50がResNet-50より2.1%上回り、DBTアプローチを用いるとImageNetでも利得を生む。
  • 手法はFLOPsが控えめで効率的なまま(例としてベースライン約3.8B FLOPs、より大きなDBTモデルで約7.6B FLOPsを報告)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。