QUICK REVIEW

[論文レビュー] Mobile-Former: Bridging MobileNet and Transformer

Yinpeng Chen, Xiyang Dai|arXiv (Cornell University)|Aug 12, 2021

Advanced Neural Network Applications被引用数 36

ひとこと要約

Mobile-Former は MobileNet と軽量な Transformer を双方向ブリッジで並列化し、ImageNet で同程度の FLOPs でより高い精度を達成し、MobileNetV3 および DETR のベースラインより物体検出性能が向上します。

ABSTRACT

We present Mobile-Former, a parallel design of MobileNet and transformer with a two-way bridge in between. This structure leverages the advantages of MobileNet at local processing and transformer at global interaction. And the bridge enables bidirectional fusion of local and global features. Different from recent works on vision transformer, the transformer in Mobile-Former contains very few tokens (e.g. 6 or fewer tokens) that are randomly initialized to learn global priors, resulting in low computational cost. Combining with the proposed light-weight cross attention to model the bridge, Mobile-Former is not only computationally efficient, but also has more representation power. It outperforms MobileNetV3 at low FLOP regime from 25M to 500M FLOPs on ImageNet classification. For instance, Mobile-Former achieves 77.9\% top-1 accuracy at 294M FLOPs, gaining 1.3\% over MobileNetV3 but saving 17\% of computations. When transferring to object detection, Mobile-Former outperforms MobileNetV3 by 8.6 AP in RetinaNet framework. Furthermore, we build an efficient end-to-end detector by replacing backbone, encoder and decoder in DETR with Mobile-Former, which outperforms DETR by 1.1 AP but saves 52\% of computational cost and 36\% of parameters.

研究の動機と目的

CNN の局所特徴処理と Transformer の全局的相互作用を並列設計で組み合わせる効率的なアーキテクチャを動機付ける。
局所的特徴とグローバル特徴を最小限の計算で融合する軽量な双方向ブリッジを導入する。
小さなトークンベースの Transformer が低 FLOP レジームで大きなコストをかけずに有意な利得を提供できることを示す。
ImageNet の分類と物体検出/エンドツーエンドの DETR 風パイプラインでの改善を示す。
Mobile-Former におけるトークン、次元数、ダイナミック ReLU の寄与を理解するためのアブレーションを探る。

提案手法

Mobile-Former を、MobileNet ブロックと小さなトークンTransformer（M <= 6, d <= 192）を学習可能なグローバルトークンと共に積み重ねた並列アーキテクチャとして提示する。
計算を節約するため Mobile 側の Q/K/V 投影を削除しつつ、Mobile -> Former および Former -> Mobile の相互作用を可能にする軽量なクロスアテンションブリッジを導入する。
Mobile-Former ブロックを、モバイルサブブロック、Former サブブロック、そして二つのクロスアテンションブリッジ（Mobile->Former と Former->Mobile）の四つのモジュールで定義する。
グローバルトークンから生成されるパラメータを含む、Mobile ブランチに空間的に意識した動的 ReLU を使用し、エンドツーエンド検出器のヘッドで全トークンを用いたパラメータ生成を含む強化を行う。
実験用に Mobile-Former-26M から Mobile-Former-508M のネットワーク変種を提供し、ImageNet と COCO での実験のために 294M FLOP 構成を六つのグローバルトークンと次元 192 で詳述する。

実験結果

リサーチクエスチョン

RQ1低 FLOPs で ImageNet の従来の CNN や ViT を上回る並列 MobileNet-Transformer design と軽量な双方向ブリッジは可能か。
RQ2MobileNet と効率的なブリッジを介して融合した場合、小さなトークンの Transformer はグローバルな相互作用をモデル化するのに十分か。
RQ3Mobile-Former におけるトークン数とトークン次元数は精度と効率にどのような影響を与えるか。
RQ4Mobile-Former は RetinaNet やエンドツーエンドの DETR 風検出器の効率的なバックボーンとして機能し、計算コストを抑えつつ AP の改善をもたらすか。

主な発見

Mobile-Former は 294M FLOPs で ImageNet のトップ1 精度 77.9% を達成し、MobileNetV3 を上回り、計算量は 17% 削減。
物体検出では、Mobile-Former バックボーンは同等のコストで MobileNetV3 を上回り RetinaNet の AP を 8.6 ポイント改善。
Mobile-Former をバックボーン/エンコーダ/デコーダとして置換した DETR 相当のエンドツーエンド検出器は、DETR より AP が 1.1 高く、 FLOPs を 52%、パラメータを 36% 減らして達成。
FLOPs が 25M から 500M の範囲で、Mobile-Former は低 FLOP の予算下で効率的な CNN とビジョントランスフォーマーの双方を一貫して上回る。
アブレーションにより、単一のグローバルトークでも高い性能を提供し、6 つのトークン（d=192）の場合までの利益が飽和する前にさらに伸びる。
空間認識型ダイナミック ReLU とポジション埋め込みの適応が、COCO の検出に顕著な利得をもたらす（3 要素アブレーションで累積的な改善を示す）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。