Skip to main content
QUICK REVIEW

[論文レビュー] MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features

Shakti N. Wadekar, Abhishek Chaurasia|arXiv (Cornell University)|Sep 30, 2022
Advanced Neural Network Applications被引用数 86
ひとこと要約

MobileViTv3はMobileViTの融合ブロックを再導入し簡素化し、局所特徴・グローバル特徴・入力特徴を統合して、ImageNet-1K、ADE20K、COCO、Pascal VOCで精度を向上させつつ、スケーラブルで効率的なモバイル対応ビジョン変換器を実現します。

ABSTRACT

MobileViT (MobileViTv1) combines convolutional neural networks (CNNs) and vision transformers (ViTs) to create light-weight models for mobile vision tasks. Though the main MobileViTv1-block helps to achieve competitive state-of-the-art results, the fusion block inside MobileViTv1-block, creates scaling challenges and has a complex learning task. We propose changes to the fusion block that are simple and effective to create MobileViTv3-block, which addresses the scaling and simplifies the learning task. Our proposed MobileViTv3-block used to create MobileViTv3-XXS, XS and S models outperform MobileViTv1 on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets. On ImageNet-1K, MobileViTv3-XXS and MobileViTv3-XS surpasses MobileViTv1-XXS and MobileViTv1-XS by 2% and 1.9% respectively. Recently published MobileViTv2 architecture removes fusion block and uses linear complexity transformers to perform better than MobileViTv1. We add our proposed fusion block to MobileViTv2 to create MobileViTv3-0.5, 0.75 and 1.0 models. These new models give better accuracy numbers on ImageNet-1k, ADE20K, COCO and PascalVOC2012 datasets as compared to MobileViTv2. MobileViTv3-0.5 and MobileViTv3-0.75 outperforms MobileViTv2-0.5 and MobileViTv2-0.75 by 2.1% and 1.0% respectively on ImageNet-1K dataset. For segmentation task, MobileViTv3-1.0 achieves 2.07% and 1.1% better mIOU compared to MobileViTv2-1.0 on ADE20K dataset and PascalVOC2012 dataset respectively. Our code and the trained models are available at: https://github.com/micronDLA/MobileViTv3

研究の動機と目的

  • 精度とリソース使用量のバランスを取るモバイル/エッジデバイス向けの効率的な視覚モデルの推進。
  • MobileViTブロックの融合メカニズムを改善し、パラメータ数と計算量を低く抑えつつスケーラブルなアーキテクチャを可能にする。
  • MobileViTv2に軽量な融合ブロックを追加することで、分類・セグメンテーション・検出タスクでの性能が向上することを示す。

提案手法

  • MobileViTの融合ブロックにおける3×3の融合畳み込みを1×1畳み込みに置換し、融合を空間的文脈からデカップリングする。
  • 入力とグローバル特徴を融合する代わりに、融合段階で局所表現とグローバル表現を連結して融合する。
  • 最終的なMobileViTブロック出力を生成する前に、入力特徴を融合ブロック出力へ残差接続として加える。
  • 局所表現ブロックの3×3畳み込みをデプスワイズ3×3畳み込みに置換してパラメータを削減する。
  • FLOPsを類似させたままチャンネルを拡張してMobileViTv3をスケールさせ、MobileViTv3-S、XS、XXSモデルを作成する。

実験結果

リサーチクエスチョン

  • RQ1MobileViTの融合ブロックを再設計して、モバイル機器上での精度を維持または向上させつつパラメータ増加を抑えられるか。
  • RQ2局所特徴とグローバル特徴を融合する(入力特徴とグローバル特徴を融合する代わり)ことと、残差入力の追加が学習と性能を改善するか。
  • RQ3異なるデプロイ予算に対してMobileViTv3ブロックを拡張する際のパラメータ数、FLOPs、精度、遅延のトレードオフは何か。

主な発見

モデルパラメータ数(M)FLOPs(M)Top-1 精度(%)
MobileViTv3-XXS1.2528971.0
MobileViTv3-XS2.592776.7
MobileViTv3-S5.8184179.3
  • MobileViTv3-XXSおよびMobileViTv3-XSは、類似のパラメータ数/FLOPsでImageNet-1KにおいてMobileViTv1-XXSおよびMobileViTv1-XSをそれぞれ2.0%、1.9%上回る。
  • MobileViTv3-0.5とMobileViTv3-0.75は、ImageNet-1KでそれぞれMobileViTv2-0.5とMobileViTv2-0.75を2.1%、1.0%上回る。
  • セグメンテーションでは、MobileViTv3-1.0はADE20Kで+2.07%のmIOU、Pascal VOC 2012で+1.1%をMobileViTv2-1.0より達成。
  • 検出(COCO)の場合、MobileViTv3-XSとMobileViTv3-1.0は、それぞれMobileViTv1-XSおよびMobileViTv2-1.0より+0.8%、+0.5%のmAPを達成。
  • layer4のブロックを削減することでレイテンシとスループットの改善を示す。例として、同等の精度・パラメータでMobileViTv3-XXSは2ブロックで約6.24 msのレイテンシ、MobileViTv1-XXSは約7.24 ms。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。