[論文レビュー] Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
自律的な視覚ベースのモバイルデバイスエージェントは、視覚認識を用いてUI要素を特定し、操作を計画し、アプリのメタデータに依存せずにマルチアプリのタスクを実行します。Mobile-Evalベ benchmarkはその性能を評価します。
Mobile device agent based on Multimodal Large Language Models (MLLM) is becoming a popular application. In this paper, we introduce Mobile-Agent, an autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual perception tools to accurately identify and locate both the visual and textual elements within the app's front-end interface. Based on the perceived vision context, it then autonomously plans and decomposes the complex operation task, and navigates the mobile Apps through operations step by step. Different from previous solutions that rely on XML files of Apps or mobile system metadata, Mobile-Agent allows for greater adaptability across diverse mobile operating environments in a vision-centric way, thereby eliminating the necessity for system-specific customizations. To assess the performance of Mobile-Agent, we introduced Mobile-Eval, a benchmark for evaluating mobile device operations. Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent. The experimental results indicate that Mobile-Agent achieved remarkable accuracy and completion rates. Even with challenging instructions, such as multi-app operations, Mobile-Agent can still complete the requirements. Code and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.
研究の動機と目的
- XMLやシステムメタデータに依存せず、視覚中心のモバイルエージェントの必要性を動機づける。
- 視覚認識とOCR/アイコン検出を通じてUI要素を局在化するMobile-Agentを提案する。
- 自己計画と自己反省を可能にし、複数ステップのモバイル操作を実行する。
- 一般的なアプリ上でモバイルデバイスエージェントを評価するベンチマークとしてMobile-Evalを導入する。
提案手法
- 高度な計画とプロンプト駆動型推論のためにGPT-4Vを活用する。
- テキスト局在化にOCRを、アイコン局在化にはCLIPベースのグラウンディングパイプラインを用いる。
- 画面操作の8つの原始操作を定義する(Open App、Click Text、Click Icon、Type、Page Up/Down、Back、Exit、Stop)。
- 反復的な自己計画を実装する:スクリーンショットを取得し、次のアクションを生成し、完了するまで実行する。
- 無効または不完全な操作から回復する自己反省メカニズムを組み込む。
- 10アプリと3つの指示難易度でMobile-Evalを用いて評価する。
実験結果
リサーチクエスチョン
- RQ1Can Mobile-Agent accurately locate and interact with visual/UI elements on mobile screens using only screenshots?
- RQ2How effectively does the agent plan, execute, and self-correct across multi-app tasks without underlying app files?
- RQ3What are the completion rates, step accuracy, and efficiency of Mobile-Agent compared to human baselines on common Apps?
主な発見
| アプリ | 指示1 SU | 指示1 PS | 指示1 RE | 指示1 CR | 指示2 SU | 指示2 PS | 指示2 RE | 指示2 CR | 指示3 SU | 指示3 PS | 指示3 RE | 指示3 CR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alibaba.com | ✓ | 0.75 | 4 / 3 | 100% | ✗ | 0.39 | 13 / 8 | 62.5% | ✓ | 0.9 | 10 / 9 | 100% |
| Amazon Music | ✗ | 0.44 | 9 / 5 | 80.0% | ✓ | 0.75 | 8 / 6 | 100% | ✗ | 0.50 | 12 / 3 | 66.7% |
| Chrome | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 0.80 | 5 / 4 | 100% | ✓ | 0.43 | 8 / 5 | 100% |
| Gmail | ✓ | 1.00 | 4 / 4 | 100% | ✗ | 0.56 | 9 / 8 | 37.5% | ✗ | 0.56 | 9 / 8 | 37.5% |
| Google Maps | ✓ | 1.00 | 5 / 5 | 100% | ✓ | 1.00 | 6 / 6 | 100% | ✓ | 1.00 | 6 / 6 | 100% |
| Google Play | ✓ | 1.00 | 3 / 3 | 100% | ✓ | 0.50 | 10 / 4 | 100% | ✓ | 1.00 | 3 / 3 | 100% |
| Notes | ✓ | 0.57 | 7 / 4 | 100% | ✓ | 0.67 | 6 / 4 | 100% | ✓ | 1.00 | 5 / 5 | 100% |
| Settings | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 5 / 5 | 100% |
| TikTok | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 10 / 10 | 100% | ✓ | 1.00 | 7 / 7 | 100% |
| YouTube | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 9 / 9 | 100% | ✓ | 1.00 | 7 / 7 | 100% |
| Multi-App | ✓ | 1.00 | 6 / 6 | 100% | ✓ | 1.00 | 6 / 6 | 100% | ✓ | 1.00 | 10 / 10 | 100% |
| Avg. | 0.91 | 0.89 | 4.9 / 4.2 | 98.2% | 0.82 | 0.77 | 7.9 / 6.3 | 90.9% | 0.82 | 0.84 | 7.5 / 6.2 | 91.3% |
- Mobile-AgentはMobile-Evalの3つの指示タイプで平均成功率91%を達成。
- 平均ステップ正確度(PS)は指示ごとにおおよそ0.89–0.84で、全体的な正確性も高い。
- 完了率(CR)は第一セットで平均約98.2%、第二セットで90.9%、第三セットで91.3%。
- エージェントはマルチアプリの状況や多様なUIレイアウトでも高い性能を示す。
- 自己反省は無効/不正確な操作からの回復を助け、タスク完了を改善する。
- 提供されたAvg RE(人間相当のステップ)は、Mobile-Agentがしばし人間に近い効率性に近づくことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。