QUICK REVIEW

[논문 리뷰] Interactive Task and Concept Learning from Natural Language Instructions and GUI Demonstrations

Toby Jia-Jun Li, Marissa Radensky|arXiv (Cornell University)|2019. 08. 30.

AI in Service Interactions인용 수 4

한 줄 요약

이 논문은 자연어 지시와 GUI 기반 프로그래밍-디모니스트레이션을 결합한 다중모달이며 도메인 독립적인 프레임워크인 PUMICE를 제안한다. 이는 사용자가 상호작용 대화와 시연을 통해 지능형 에이전트에게 새로운 작업과 개념을 가르치는 데 기여한다. 자연어 지시의 모호함은 반복적인 조율을 통해 GUI 상호작용을 통해 조건을 명확히 하고 새로운 개념을 정의함으로써 해결되며, 10명의 사용자를 대상으로 한 실험실 연구에서 사용성의 가능성을 입증한다.

ABSTRACT

Natural language programming is a promising approach to enable end users to instruct new tasks for intelligent agents. However, our formative study found that end users would often use unclear, ambiguous or vague concepts when naturally instructing tasks in natural language, especially when specifying conditionals. Existing systems have limited support for letting the user teach agents new concepts or explaining unclear concepts. In this paper, we describe a new multimodal domain-independent approach that combines natural language programming and programming-by-demonstration to allow users to first naturally describe tasks and associated conditions at a high level, and then collaborate with the agent to recursively resolve any ambiguities or vagueness through conversations and demonstrations. Users can also define new procedures and concepts by demonstrating and referring to contents within GUIs of existing mobile apps. We demonstrate this approach in PUMICE, an end-user programmable agent that implements this approach. A lab study with 10 users showed its usability.

연구 동기 및 목표

사용자 프로그래밍에서 조건문에 특히 해당하는 모호하거나 모호한 자연어 지시의 문제를 해결하기 위해.
사용자가 GUI 시연와 자연어 참조를 통해 에이전트에게 새로운 개념과 절차를 가르칠 수 있도록 하기 위해.
사용자와 에이전트 간의 상호작용 대화와 시연를 통해 모호한 개념을 반복적으로 명확화할 수 있도록 지원하기 위해.
자연어 프로그래밍과 프로그래밍-디모니스트레이션을 통합하는 도메인 독립적이고 다중모달적 접근법을 개발하기 위해.
실제 작업 작성 시나리오에서 사용자 중심의 시스템 사용성 평가하기 위해.

제안 방법

사용자가 먼저 자연어로 작업과 그 조건을 기술하여 고수준의 지시를 제공한다.
에이전트는 자연어 기술서에서 모호함이나 모호성, 특히 조건 논리에서 발생하는 문제를 탐지한다.
시스템은 명확하지 않은 개념을 명확히 하기 위해 대화를 시작하며, 이에 따라 후속 질문과 맥락적 단서를 사용한다.
사용자는 기존 모바일 애플리케이션의 GUI에서 행동을 시연함으로써 모호함을 해결한다.
새로운 개념과 절차는 GUI 환경 내에서 시연를 통해 정의되며, 자연어 참조로 레이블이 붙는다.
에이전트는 지시, 명확화, 시연의 반복적 사이클을 통해 점진적으로 작업 모델을 학습하고 개선한다.

실험 결과

연구 질문

RQ1모호하거나 모호한 개념을 포함한 자연어 지시는 작업 사양 단계에서 어떻게 효과적으로 해결될 수 있는가?
RQ2사용자가 GUI 시연와 자연어를 통해 에이전트에게 새로운 개념과 절차를 얼마나 잘 가르칠 수 있는가?
RQ3자연어와 프로그래밍-디모니스트레이션을 통합한 상호작용 기반의 다중모달 접근법은 모호함 해결에 얼마나 효과적인가?
RQ4사용자가 에이전트와의 반복적 협업을 통해 조건문을 포함한 복잡한 작업을 성공적으로 작성할 수 있는가?
RQ5시스템은 실제 사용자 중심의 프로그래밍 시나리오에서 얼마나 사용자 친화적인가?

주요 결과

시스템은 상호작용 대화와 GUI 기반 시연를 통해 자연어 지시의 모호함을 성공적으로 해결했다.
사용자는 모바일 애플리케이션 GUI에서 행동을 시연하고 자연어 참조로 이를 지칭함으로써 새로운 개념과 절차를 정의할 수 있었다.
반복적인 명확화 과정을 통해 사용자는 점진적으로 작업 사양을 개선하여 정확성과 명확성을 높일 수 있었다.
10명의 사용자를 대상으로 한 실험실 연구를 통해 시스템의 실생활 작업 작성 시나리오에서의 사용성은 확인되었다.
사용자와 에이전트 간의 협업을 통해 조건문과 복잡한 논리를 가르치는 데 실현 가능성이 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.