Skip to main content
QUICK REVIEW

[论文解读] Interactive Task and Concept Learning from Natural Language Instructions and GUI Demonstrations

Toby Jia-Jun Li, Marissa Radensky|arXiv (Cornell University)|Aug 30, 2019
AI in Service Interactions被引用 4
一句话总结

本文提出 PUMICE,一种多模态、与领域无关的框架,结合自然语言指令与基于图形用户界面的演示式编程,使终端用户能够通过交互式对话和演示,向智能代理教授新任务与新概念。该框架通过迭代式澄清条件和借助图形用户界面交互定义新概念,解决了自然语言指令中的歧义问题,并在10名用户的实验室研究中验证了其可用性。

ABSTRACT

Natural language programming is a promising approach to enable end users to instruct new tasks for intelligent agents. However, our formative study found that end users would often use unclear, ambiguous or vague concepts when naturally instructing tasks in natural language, especially when specifying conditionals. Existing systems have limited support for letting the user teach agents new concepts or explaining unclear concepts. In this paper, we describe a new multimodal domain-independent approach that combines natural language programming and programming-by-demonstration to allow users to first naturally describe tasks and associated conditions at a high level, and then collaborate with the agent to recursively resolve any ambiguities or vagueness through conversations and demonstrations. Users can also define new procedures and concepts by demonstrating and referring to contents within GUIs of existing mobile apps. We demonstrate this approach in PUMICE, an end-user programmable agent that implements this approach. A lab study with 10 users showed its usability.

研究动机与目标

  • 解决在终端用户编程中,尤其是条件逻辑方面,自然语言指令模糊或含糊不清的挑战。
  • 使用户能够通过图形用户界面演示和自然语言引用,向代理教授新概念和新程序。
  • 通过用户与代理之间的交互式对话和演示,支持对不明确概念的递归澄清。
  • 开发一种与领域无关的多模态方法,整合自然语言编程与演示式编程。
  • 在真实世界任务创作场景中,评估系统在终端用户编程中的可用性。

提出的方法

  • 用户首先以自然语言描述任务及其条件,提供高层次的指令。
  • 代理检测自然语言描述中的模糊性或含糊性,特别是在条件逻辑方面。
  • 系统启动交互式对话,通过后续问题和上下文线索澄清不明确的概念。
  • 用户通过在现有移动应用的图形用户界面中演示操作来解决模糊性。
  • 通过演示定义新概念和程序,并在图形用户界面环境中用自然语言进行标注。
  • 代理通过指令、澄清和演示的迭代循环,逐步学习并完善任务模型。

实验结果

研究问题

  • RQ1在任务规范过程中,如何有效解决包含模糊或含糊概念的自然语言指令?
  • RQ2用户在多大程度上能够通过图形用户界面演示和自然语言,向代理教授新概念和新程序?
  • RQ3结合自然语言与演示式编程的交互式多模态方法,在解决歧义方面的有效性如何?
  • RQ4用户是否能够通过与代理的迭代协作,成功创建涉及条件逻辑的复杂任务?
  • RQ5该系统在真实世界终端用户编程场景中的可用性如何?

主要发现

  • 该系统通过交互式对话和基于图形用户界面的演示,成功解决了自然语言指令中的歧义。
  • 用户能够通过在移动应用图形用户界面中演示操作并用自然语言引用,定义新概念和新程序。
  • 迭代澄清过程使用户能够逐步完善任务规范,提升准确性和清晰度。
  • 10名用户的实验室研究证实了该系统在真实世界任务创作场景中的可用性。
  • 该方法在通过用户与代理协作教授条件逻辑和复杂逻辑方面展示了可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。