[論文レビュー] Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device
Mobile-O はモバイル端末上で動作するコンパクトな視覚と言語拡散モデルで、Mobile Conditioning Projector(MCP)と統一された後処理データ形式を導入し、約 1.6B パラメータでデバイス上のリアルタイム多モーダル理解と生成を実現します。
Unified multimodal models can both understand and generate visual content within a single architecture. Existing models, however, remain data-hungry and too heavy for deployment on edge devices. We present Mobile-O, a compact vision-language-diffusion model that brings unified multimodal intelligence to a mobile device. Its core module, the Mobile Conditioning Projector (MCP), fuses vision-language features with a diffusion generator using depthwise-separable convolutions and layerwise alignment. This design enables efficient cross-modal conditioning with minimal computational cost. Trained on only a few million samples and post-trained in a novel quadruplet format (generation prompt, image, question, answer), Mobile-O jointly enhances both visual understanding and generation capabilities. Despite its efficiency, Mobile-O attains competitive or superior performance compared to other unified models, achieving 74% on GenEval and outperforming Show-O and JanusFlow by 5% and 11%, while running 6x and 11x faster, respectively. For visual understanding, Mobile-O surpasses them by 15.3% and 5.1% averaged across seven benchmarks. Running in only ~3s per 512x512 image on an iPhone, Mobile-O establishes the first practical framework for real-time unified multimodal understanding and generation on edge devices. We hope Mobile-O will ease future research in real-time unified multimodal intelligence running entirely on-device with no cloud dependency. Our code, models, datasets, and mobile application are publicly available at https://amshaker.github.io/Mobile-O/
研究の動機と目的
- 視覚コンテンツの理解と生成の両立が可能なデータ効率の良いエッジ展開可能な統一多モーダルモデルの動機付け。
- 視覚と言語の理解と拡散ベースの生成を融合する軽量・モバイル最適化アーキテクチャの開発。
- クロスモーダル理解と生成を整合させるための四重データを用いた統一的後処理スキームの提案。
- 最小コストでクロスモーダ conditioning を可能にする Mobile Conditioning Projector(MCP)の導入。
- iPhone、Jetson Nano、MacBook などのデバイスでのリアルタイムオンデバイス性能の実証。
提案手法
- 理解のための FastVLM と生成のための DiT スタイル拡散デコーダを組み合わせたベースラインモバイル統一フレームワーク。
- 最終隠れ状態を層ごとに統合する層間フュージョン、圧縮、洗練、共有 E 投影を介して拡散条件付けへ統合する Mobile Conditioning Projector(MCP)の導入。
- 最後の K 層の VLM から学習可能な重みを用いた層間フュージョンを用いて H_fuse を形成し、深度分離可能な Conv1D とチャネル注意を用いて精練し、拡散のクロスアテンションの E を生成。
- 生成と理解の I2T および T2I 目的を共同最適化する四重データ(生成プロンプト、画像、質問、回答)による統一多モーダル後処理段階での訓練。
- 三段階の訓練スキームを採用:クロスモーダル整合、監視付き微調整、統一多モーダル後処理、初期段階でバックボーンを凍結、後処理データが共同学習を可能にするよう設計。
実験結果
リサーチクエスチョン
- RQ1コンパクトでエッジに優しいモデルは、多モーダル理解と画像生成の両方で競争力のある性能を達成できるか。
- RQ2軽量な MCP は大規模なクエリトークン予算や重い事前訓練なしに効果的なクロスモーダル条件付けを可能にするか。
- RQ3四重データを用いた統一後処理は理解と生成の両方のクロスモーダル整合を改善するか。
- RQ4モバイルハードウェア上でのリアルタイム統一多モーダル推論に必要な実際の遅延とメモリ要件はどれくらいか。
主な発見
| タイプ | モデル | 総パラメータ数 | MMMU ↑ | TextVQA ↑ | MMVet ↑ | SEED ↑ | ChartQA ↑ | POPE ↑ | GQA ↑ | 平均 ↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| Und. | Mobile-O-0.5B (Ours) | 1.6 B | 34.6 | 67.8 | 38.1 | 69.4 | 75.2 | 86.4 | 62.9 | 62.1 |
- Mobile-O-0.5B は GenEval スコア 74% を達成し、Show-O および JanusFlow をそれぞれ 5%・11% 上回り、最大で 11 倍の高速化を実現。
- 7件の多モーダル理解ベンチマークで Mobile-O-0.5B は競合モデルを平均で 15.3% / 5.1% 上回る。
- iPhone 上で 512×512 画像を約 3 秒で処理可能で、オンデバイスでのリアルタイム統一多モーダル機能を確立。
- GenEval の結果、Mobile-O-0.5B は 0.74 の総合スコアを達成(比較対象の 2B モデルの中で)、同等サイズのベースラインを約 5% 上回る。
- アブレーション研究により、最後の層フュージョン、学習可能ウェイト、洗練ブロックを備えた MCP が 70.4% の精度(MCP 内 2.4M パラメータ)で最良のトレードオフを示す。
- エッジ展開された Mobile-O バリアント(例:Mobile-O-0.5B)は、大型の統一モデルよりはるかに少ないパラメータ数で競争力のある性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。