Skip to main content
QUICK REVIEW

[论文解读] AutoDroid: LLM-powered Task Automation in Android

Hao Wen, Yuanchun Li|arXiv (Cornell University)|Aug 29, 2023
Topic Modeling被引用 12
一句话总结

AutoDroid 使用 LLM,通过应用特定内存来自动化 Android 应用上的任意任务,在降低查询成本的同时实现高行动准确性和任务成功率。

ABSTRACT

Mobile task automation is an attractive technique that aims to enable voice-based hands-free user interaction with smartphones. However, existing approaches suffer from poor scalability due to the limited language understanding ability and the non-trivial manual efforts required from developers or end-users. The recent advance of large language models (LLMs) in language understanding and reasoning inspires us to rethink the problem from a model-centric perspective, where task preparation, comprehension, and execution are handled by a unified language model. In this work, we introduce AutoDroid, a mobile task automation system capable of handling arbitrary tasks on any Android application without manual efforts. The key insight is to combine the commonsense knowledge of LLMs and domain-specific knowledge of apps through automated dynamic analysis. The main components include a functionality-aware UI representation method that bridges the UI with the LLM, exploration-based memory injection techniques that augment the app-specific domain knowledge of LLM, and a multi-granularity query optimization module that reduces the cost of model inference. We integrate AutoDroid with off-the-shelf LLMs including online GPT-4/GPT-3.5 and on-device Vicuna, and evaluate its performance on a new benchmark for memory-augmented Android task automation with 158 common tasks. The results demonstrated that AutoDroid is able to precisely generate actions with an accuracy of 90.9%, and complete tasks with a success rate of 71.3%, outperforming the GPT-4-powered baselines by 36.4% and 39.7%. The demo, benchmark suites, and source code of AutoDroid will be released at url{https://autodroid-sys.github.io/}.

研究动机与目标

  • 在不需要人工任务特定接线或演示的情况下,推动可扩展的移动任务自动化。
  • 通过结构化的类似 HTML 的 UI 提示,将智能手机 GUI 表示桥接到 LLM。
  • 通过动态 UI 分析和模拟任务合成,用应用特定知识来增强 LLM。
  • 通过内存引导的提示、界面合并和令牌裁剪,降低 LLM 查询成本。
  • 在包含多样化应用的新 Android 任务自动化基准上展示有效性。

提出的方法

  • 将 GUI 状态表示为简化的类似 HTML 的提示,以引导 LLM。
  • 通过离线对应用的随机探索构建 UI 转换图。
  • 从 UTG 生成模拟任务,将应用知识注入提示中。
  • 使用相似性检索将相关的应用内存增强到提示中。
  • 用应用特定数据对本地 LLM 进行微调,以提高成本效益和准确性。
  • 应用多粒度查询优化,包括令牌裁剪和 GUI 合并。

实验结果

研究问题

  • RQ1一个由 LLM 驱动的代理是否能够在多个应用中以高准确率完成未见过的智能手机任务?
  • RQ2应用特定内存和模拟任务合成在移动任务自动化的规划和行动选择方面可以提升多少?
  • RQ3AutoDroid 的在线 LLM 查询成本与任务成功率之间的权衡是什么?
  • RQ4提示增强和本地 LLM 调优在减少对在线 LLM 依赖方面有多有效?

主要发现

  • AutoDroid 在执行步骤上实现了 90.9% 的行动准确性。
  • 在 GPT-4 驱动使用中,任务完成成功率达到 71.3%。
  • AutoDroid 在任务完成率方面比以 GPT-4 为基础的基线高出 36.4%。
  • 与基线相比,查询 LLM 的成本下降了 51.7%。”
  • 基准测试包含 158 个任务,覆盖 13 个开源 Android 应用。
  • 证明将 LLM 与应用特定内存相结合以实现可扩展的移动任务自动化的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。