[論文レビュー] MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features
MobileViTv3はMobileViTの融合ブロックを再導入し簡素化し、局所特徴・グローバル特徴・入力特徴を統合して、ImageNet-1K、ADE20K、COCO、Pascal VOCで精度を向上させつつ、スケーラブルで効率的なモバイル対応ビジョン変換器を実現します。
MobileViT (MobileViTv1) combines convolutional neural networks (CNNs) and vision transformers (ViTs) to create light-weight models for mobile vision tasks. Though the main MobileViTv1-block helps to achieve competitive state-of-the-art results, the fusion block inside MobileViTv1-block, creates scaling challenges and has a complex learning task. We propose changes to the fusion block that are simple and effective to create MobileViTv3-block, which addresses the scaling and simplifies the learning task. Our proposed MobileViTv3-block used to create MobileViTv3-XXS, XS and S models outperform MobileViTv1 on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets. On ImageNet-1K, MobileViTv3-XXS and MobileViTv3-XS surpasses MobileViTv1-XXS and MobileViTv1-XS by 2% and 1.9% respectively. Recently published MobileViTv2 architecture removes fusion block and uses linear complexity transformers to perform better than MobileViTv1. We add our proposed fusion block to MobileViTv2 to create MobileViTv3-0.5, 0.75 and 1.0 models. These new models give better accuracy numbers on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets as compared to MobileViTv2. MobileViTv3-0.5 and MobileViTv3-0.75 outperforms MobileViTv2-0.5 and MobileViTv2-0.75 by 2.1% and 1.0% respectively on ImageNet-1K dataset. For segmentation task, MobileViTv3-1.0 achieves 2.07% and 1.1% better mIOU compared to MobileViTv2-1.0 on ADE20K dataset and PascalVOC2012 dataset respectively. Our code and the trained models are available at: https://github.com/micronDLA/MobileViTv3
研究の動機と目的
- 精度とリソース使用量のバランスを取るモバイル/エッジデバイス向けの効率的な視覚モデルの推進。
- MobileViTブロックの融合メカニズムを改善し、パラメータ数と計算量を低く抑えつつスケーラブルなアーキテクチャを可能にする。
- MobileViTv2に軽量な融合ブロックを追加することで、分類・セグメンテーション・検出タスクでの性能が向上することを示す。
提案手法
- MobileViTの融合ブロックにおける3×3の融合畳み込みを1×1畳み込みに置換し、融合を空間的文脈からデカップリングする。
- 入力とグローバル特徴を融合する代わりに、融合段階で局所表現とグローバル表現を連結して融合する。
- 最終的なMobileViTブロック出力を生成する前に、入力特徴を融合ブロック出力へ残差接続として加える。
- 局所表現ブロックの3×3畳み込みをデプスワイズ3×3畳み込みに置換してパラメータを削減する。
- FLOPsを類似させたままチャンネルを拡張してMobileViTv3をスケールさせ、MobileViTv3-S、XS、XXSモデルを作成する。
実験結果
リサーチクエスチョン
- RQ1MobileViTの融合ブロックを再設計して、モバイル機器上での精度を維持または向上させつつパラメータ増加を抑えられるか。
- RQ2局所特徴とグローバル特徴を融合する(入力特徴とグローバル特徴を融合する代わり)ことと、残差入力の追加が学習と性能を改善するか。
- RQ3異なるデプロイ予算に対してMobileViTv3ブロックを拡張する際のパラメータ数、FLOPs、精度、遅延のトレードオフは何か。
主な発見
| モデル | パラメータ数(M) | FLOPs(M) | Top-1 精度(%) |
|---|---|---|---|
| MobileViTv3-XXS | 1.25 | 289 | 71.0 |
| MobileViTv3-XS | 2.5 | 927 | 76.7 |
| MobileViTv3-S | 5.8 | 1841 | 79.3 |
- MobileViTv3-XXSおよびMobileViTv3-XSは、類似のパラメータ数/FLOPsでImageNet-1KにおいてMobileViTv1-XXSおよびMobileViTv1-XSをそれぞれ2.0%、1.9%上回る。
- MobileViTv3-0.5とMobileViTv3-0.75は、ImageNet-1KでそれぞれMobileViTv2-0.5とMobileViTv2-0.75を2.1%、1.0%上回る。
- セグメンテーションでは、MobileViTv3-1.0はADE20Kで+2.07%のmIOU、Pascal VOC 2012で+1.1%をMobileViTv2-1.0より達成。
- 検出(COCO)の場合、MobileViTv3-XSとMobileViTv3-1.0は、それぞれMobileViTv1-XSおよびMobileViTv2-1.0より+0.8%、+0.5%のmAPを達成。
- layer4のブロックを削減することでレイテンシとスループットの改善を示す。例として、同等の精度・パラメータでMobileViTv3-XXSは2ブロックで約6.24 msのレイテンシ、MobileViTv1-XXSは約7.24 ms。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。