[论文解读] Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
一个基于视觉的自主移动设备代理,利用视觉感知定位 UI 元素、规划操作,并在不依赖应用元数据的情况下执行多应用任务。Mobile-Eval 基准评估其性能。
Mobile device agent based on Multimodal Large Language Models (MLLM) is becoming a popular application. In this paper, we introduce Mobile-Agent, an autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual perception tools to accurately identify and locate both the visual and textual elements within the app's front-end interface. Based on the perceived vision context, it then autonomously plans and decomposes the complex operation task, and navigates the mobile Apps through operations step by step. Different from previous solutions that rely on XML files of Apps or mobile system metadata, Mobile-Agent allows for greater adaptability across diverse mobile operating environments in a vision-centric way, thereby eliminating the necessity for system-specific customizations. To assess the performance of Mobile-Agent, we introduced Mobile-Eval, a benchmark for evaluating mobile device operations. Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent. The experimental results indicate that Mobile-Agent achieved remarkable accuracy and completion rates. Even with challenging instructions, such as multi-app operations, Mobile-Agent can still complete the requirements. Code and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.
研究动机与目标
- 激发对以视觉为中心的移动代理的需求,该代理不依赖 XML 或系统元数据。
- 提出通过视觉感知与 OCR/图标检测定位 UI 元素的 Mobile-Agent。
- 实现自我规划和自我反思,以执行多步移动操作。
- 引入 Mobile-Eval 作为基准,用于在常见应用上评估移动设备代理。
提出的方法
- 利用 GPT-4V 进行高层次规划和基于提示的推理。
- 使用 OCR 进行文本定位,以及基于 CLIP 的定位管线用于图标定位。
- 定义八个屏幕操作原语(Open App、Click Text、Click Icon、Type、Page Up/Down、Back、Exit、Stop)。
- 实现迭代自我规划:截取屏幕截图、生成下一步操作并执行直到完成。
- 加入自我反思机制,以从无效或不完整的操作中恢复。
- 在 10 个应用和三种指令难度下使用 Mobile-Eval 进行评估。
实验结果
研究问题
- RQ1Mobile-Agent 是否能够仅使用截图,在移动屏幕上准确定位并与可视/UI 元素交互?
- RQ2在没有底层应用文件的情况下,代理在多应用任务中如何有效地规划、执行和自我矫正?
- RQ3与人类基线在常见应用上的完成率、步骤准确性和效率对比,Mobile-Agent 的表现如何?
主要发现
| 应用 | 指令1 SU | 指令1 PS | 指令1 RE | 指令1 CR | 指令2 SU | 指令2 PS | 指令2 RE | 指令2 CR | 指令3 SU | 指令3 PS | 指令3 RE | 指令3 CR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alibaba.com | ✓ | 0.75 | 4 / 3 | 100% | ✗ | 0.39 | 13 / 8 | 62.5% | ✓ | 0.9 | 10 / 9 | 100% |
| Amazon Music | ✗ | 0.44 | 9 / 5 | 80.0% | ✓ | 0.75 | 8 / 6 | 100% | ✗ | 0.50 | 12 / 3 | 66.7% |
| Chrome | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 0.80 | 5 / 4 | 100% | ✓ | 0.43 | 8 / 5 | 100% |
| Gmail | ✓ | 1.00 | 4 / 4 | 100% | ✗ | 0.56 | 9 / 8 | 37.5% | ✗ | 0.56 | 9 / 8 | 37.5% |
| Google Maps | ✓ | 1.00 | 5 / 5 | 100% | ✓ | 1.00 | 6 / 6 | 100% | ✓ | 1.00 | 6 / 6 | 100% |
| Google Play | ✓ | 1.00 | 3 / 3 | 100% | ✓ | 0.50 | 10 / 4 | 100% | ✓ | 1.00 | 3 / 3 | 100% |
| Notes | ✓ | 0.57 | 7 / 4 | 100% | ✓ | 0.67 | 6 / 4 | 100% | ✓ | 1.00 | 5 / 5 | 100% |
| Settings | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 5 / 5 | 100% |
| TikTok | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 10 / 10 | 100% | ✓ | 1.00 | 7 / 7 | 100% |
| YouTube | ✓ | 1.00 | 4 / 4 | 100% | ✓ | 1.00 | 9 / 9 | 100% | ✓ | 1.00 | 7 / 7 | 100% |
| Multi-App | ✓ | 1.00 | 6 / 6 | 100% | ✓ | 1.00 | 6 / 6 | 100% | ✓ | 1.00 | 10 / 10 | 100% |
| Avg. | 0.91 | 0.89 | 4.9 / 4.2 | 98.2% | 0.82 | 0.77 | 7.9 / 6.3 | 90.9% | 0.82 | 0.84 | 7.5 / 6.2 | 91.3% |
- Mobile-Agent 在 Mobile-Eval 的三类指令类型上平均成功率达到 91%。
- 在各指令中的平均步骤准确度(PS)约为 0.89–0.84,总体正确率很高。
- 完成率(CR)在第一组平均约 98.2%,第二组 90.9%,第三组 91.3%。
- 该代理在多应用场景和多样化 UI 布局中也表现出色。
- 自我反思有助于从无效/错误操作中恢复并提高任务完成率。
- 所给出的 Avg RE(等效人工步骤)表明 Mobile-Agent 常接近人类效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。