QUICK REVIEW

[論文レビュー] MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

Xiangxiang Chu, Limeng Qiao|arXiv (Cornell University)|Dec 28, 2023

Multimodal Machine Learning Applications被引用数 11

ひとこと要約

MobileVLMは、軽量なダウンサンプルプロジェクターとMobileLLaMAを搭載した、オープンでモバイルに優しい vision-language モデル（1.4B および 2.7B）を導入し、モバイルCPUとGPU上で最先端の推論速度を達成しつつ、競争力のあるVLM性能を実現します。

ABSTRACT

We present MobileVLM, a competent multimodal vision language model (MMVLM) targeted to run on mobile devices. It is an amalgamation of a myriad of architectural designs and techniques that are mobile-oriented, which comprises a set of language models at the scale of 1.4B and 2.7B parameters, trained from scratch, a multimodal vision model that is pre-trained in the CLIP fashion, cross-modality interaction via an efficient projector. We evaluate MobileVLM on several typical VLM benchmarks. Our models demonstrate on par performance compared with a few much larger models. More importantly, we measure the inference speed on both a Qualcomm Snapdragon 888 CPU and an NVIDIA Jeston Orin GPU, and we obtain state-of-the-art performance of 21.5 tokens and 65.3 tokens per second, respectively. Our code will be made available at: https://github.com/Meituan-AutoML/MobileVLM.

研究の動機と目的

モバイル規模の vision-language モデルをゼロから学習させ、オープンで再現可能なものを開発する
アーキテクチャの選択を評価し、モバイル効率のために視覚エンコーダ、入力解像度、モデルサイズを含めたアーキテクチャを比較検討する
推論コストを削減しつつ、視覚とテキスト空間を整合させる効率的なプロジェクターを設計する
モバイルCPUとスタンドアロンGPUでのリアルタイムなデバイス上推論速度を実証する
限られた学習データにもかかわらず、標準的なVLMベンチマークで競争力のある性能を示す

提案手法

ビジョンバックボーンとして CLIP-style ViT-L/14 視覚エンコーダを用いる（336×336）
Lightweight Downsample Projector (LDP) で視覚特徴をダウンサンプルして整合させ、マルチモーダルトークンを生成する
MobileLLaMA—エッジ向けに設計された1.4Bおよび2.7BのLLMをゼロから学習させ、教師あり微調整で調整する
LLMsを RedPajama v1 テキストコーパスで事前学習し、次にマルチターン対話データ（Vicuna-style）でファインチューニングする
視覚言語モデルを2段階で訓練する：まず視覚エンコーダとLLMを固定し、プロジェクターを訓練、次にプロジェクターとLLMを共同微調整する
Snapdragon 888とNVIDIA Jetson Orinで推論待ち時間を評価し、秒あたりトークン数とエンドツーエンドのスループットを報告する

実験結果

リサーチクエスチョン

RQ1オープンでモバイル規模の vision-language モデルは、はるかに少ないパラメータと学習データでも競争力のある性能を達成できるか？
RQ2軽量プロジェクターは、モバイル推論のために視覚とテキスト表現を効果的に整合させることができるか？
RQ3一般的なエッジ機器上での MobileVLM のデバイス上 latency と throughput はどれくらいか？
RQ4モバイル制約下で、MobileVLM は標準ベンチマークでより大きなオープンソースVLMとどう比較されるか？

主な発見

MobileVLM は、サイズと学習データが小さいにもかかわらず、標準的な VLM ベンチマークで競争力の結果を達成する
Lightweight Downsample Projector は視覚トークン数を約75%削減し、推論速度を向上させる
MobileLLaMA モデル（1.4B および 2.7B）は、モバイルCPUとGPUで強力な言語機能と有利な速度を示す
デバイス上の速度は Snapdragon 888 CPU で 21.5 tokens/s、NVIDIA Jetson Orin GPU で 65.3 tokens/s に達する
LoRAトランケーション微調整は、学習可能パラメータをはるかに減らしても完全微調整と同等の性能を得る
MobileVLM は複数のベンチマーク（GQA、POPE、MMBench）で、エッジ対応のデプロイメントとともに、いくつかのより大きなオープンソース VLM と同等または優位を示す

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。