Skip to main content
QUICK REVIEW

[论文解读] User Interaction Patterns and Breakdowns in Conversing with LLM-Powered Voice Assistants

Amama Mahmood, Junxiang Wang|arXiv (Cornell University)|Sep 25, 2023
Topic Modeling被引用 8
一句话总结

论文研究了一个由 ChatGPT 提供支持的语音助手,集成到 Alexa 中,如何塑造在医疗自诊断、创造性计划和辩论任务中的多轮交互,强调更丰富的交互模式以及 VA 在吸收错误和从故障中恢复中的作用。

ABSTRACT

Conventional Voice Assistants (VAs) rely on traditional language models to discern user intent and respond to their queries, leading to interactions that often lack a broader contextual understanding, an area in which Large Language Models (LLMs) excel. However, current LLMs are largely designed for text-based interactions, thus making it unclear how user interactions will evolve if their modality is changed to voice. In this work, we investigate whether LLMs can enrich VA interactions via an exploratory study with participants (N=20) using a ChatGPT-powered VA for three scenarios (medical self-diagnosis, creative planning, and discussion) with varied constraints, stakes, and objectivity. We observe that LLM-powered VA elicits richer interaction patterns that vary across tasks, showing its versatility. Notably, LLMs absorb the majority of VA intent recognition failures. We additionally discuss the potential of harnessing LLMs for more resilient and fluid user-VA interactions and provide design guidelines for tailoring LLMs for voice assistance.

研究动机与目标

  • 了解 LLM 如何丰富语音助手在单轮查询之外的交互。
  • 识别 LLM 驱动的 VA 在不同场景中的交互模式和故障。
  • 评估 VA 吸收错误并触发恢复序列的能力。
  • 提供将文本为中心的 LLM 适配到语音界面的设计指南。

提出的方法

  • 原型化一个 ChatGPT-在-Alexa 系统(gpt-3.5-turbo),通过双中间人 API 集成以管理时延和对话历史。
  • 在三项任务(医疗自诊断、创造性计划、辩论)中对 20 名参与者进行探索性研究。
  • 使用主题分析和言语行为/属性框架收集并分析交互模式与故障。
  • 用系统消息提示 ChatGPT,创建情景匹配的角色(医疗、规划、辩论)。
  • 实现触发短语和回退对话策略,以维持对话流畅性。

实验结果

研究问题

  • RQ1在用户通过语音与具备 LLM 的 VA 进行跨任务对话时,会涌现出哪些新的交互模式?
  • RQ2LLMs 如何影响错误吸收、故障恢复和语音助手的整体对话韧性?
  • RQ3为将文本为中心的 LLM 适配为强健的语音交互,需要哪些设计考量?
  • RQ4用户目标和任务约束如何影响 VA-与用户启动的恢复策略?

主要发现

  • 与传统 VA 相比,基于 LLM 的 VA 更丰富、依任务而定的交互模式。
  • VA 主要吸收意图识别失败,并主动启动恢复序列。
  • 在各场景中,VA 表现出上下文保留和适应性,从而降低了某些对话故障。
  • 设计指南包括分层的响应结构、提示重设计,以及在语音使用场景中平衡 LLM 的收益与挑战。
  • 通过双中间人 API 的时延管理实现了在 Alexa 内的响应窗口,并保持无缝的用户体验。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。