[論文レビュー] Interactive Task and Concept Learning from Natural Language Instructions and GUI Demonstrations
本論文では、自然言語の指示とGUIベースのプログラミング・バイ・デモニストレーションを統合することで、エンドユーザーがインタラクティブな対話とデモンストレーションを通じて知能エージェントに新しいタスクや概念を教えることを可能にする、マルチモーダルでドメインに依存しないフレームワークPUMICEを提示する。自然言語の指示における曖昧さは、GUIインタラクションを通じて条件の明確化と新概念の定義により段階的に解消され、10名のユーザーを対象としたラボスタディで実用性が確認された。
Natural language programming is a promising approach to enable end users to instruct new tasks for intelligent agents. However, our formative study found that end users would often use unclear, ambiguous or vague concepts when naturally instructing tasks in natural language, especially when specifying conditionals. Existing systems have limited support for letting the user teach agents new concepts or explaining unclear concepts. In this paper, we describe a new multimodal domain-independent approach that combines natural language programming and programming-by-demonstration to allow users to first naturally describe tasks and associated conditions at a high level, and then collaborate with the agent to recursively resolve any ambiguities or vagueness through conversations and demonstrations. Users can also define new procedures and concepts by demonstrating and referring to contents within GUIs of existing mobile apps. We demonstrate this approach in PUMICE, an end-user programmable agent that implements this approach. A lab study with 10 users showed its usability.
研究の動機と目的
- エンドユーザープログラミングにおける条件分岐に関連する曖昧または曖昧な自然言語の指示の課題に対処すること。
- ユーザーがGUIデモンストレーションと自然言語の参照を通じてエージェントに新しい概念と手順を教えることを可能にすること。
- ユーザーとエージェント間の対話的会話とデモンストレーションを通じて、曖昧な概念を再帰的に明確化すること。
- 自然言語プログラミングとプログラミング・バイ・デモニストレーションを統合するドメインに依存しないマルチモーダルアプローチの開発。
- エンドユーザーを対象とした現実世界のタスク作成シナリオにおけるシステムの使いやすさの評価。
提案手法
- ユーザーはまず自然言語でタスクとその条件を記述し、高水準の指示を提供する。
- エージェントは、特に条件分岐論理に関連する自然言語記述における曖昧さや曖昧さを検出する。
- システムは、追加質問と文脈的情報を用いて、曖昧な概念を明確化するための対話的対話を開始する。
- ユーザーは、既存のモバイルアプリケーションのGUIで行動をデモンストレーションすることで、曖昧さを解消する。
- 新しい概念と手順は、GUI内でのデモンストレーションと自然言語の参照によって定義される。
- エージェントは、指示、明確化、デモンストレーションの反復的サイクルを通じて、段階的にタスクモデルを学習・精錬する。
実験結果
リサーチクエスチョン
- RQ1曖昧または曖昧な概念を含む自然言語の指示は、タスク仕様の段階でどのように効果的に解消できるか?
- RQ2ユーザーはGUIデモンストレーションと自然言語を用いて、エージェントに新しい概念と手順をどの程度効果的に教えることができるか?
- RQ3自然言語とプログラミング・バイ・デモニストレーションを統合した対話的でマルチモーダルなアプローチは、曖昧さの解消においてどの程度有効か?
- RQ4ユーザーはエージェントとの反復的協働を通じて、条件分岐を含む複雑なタスクを効果的に作成できるか?
- RQ5システムは現実世界のエンドユーザープログラミングシナリオにおいて、どの程度使いやすいか?
主な発見
- システムは、対話的対話とGUIベースのデモンストレーションを通じて、自然言語の指示における曖昧さを効果的に解消した。
- ユーザーは、モバイルアプリのGUIで行動をデモンストレーションし、それらを自然言語で参照することで、新しい概念と手順を定義できた。
- 反復的明確化プロセスにより、ユーザーは段階的にタスク仕様を精錬でき、正確性と明確性が向上した。
- 10名のユーザーを対象としたラボスタディにより、システムの現実世界のタスク作成シナリオにおける使いやすさが確認された。
- 本アプローチは、ユーザーとエージェントの協働を通じて、条件分岐や複雑な論理の学習が可能であることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。