Skip to main content
QUICK REVIEW

[論文レビュー] User Interaction Patterns and Breakdowns in Conversing with LLM-Powered Voice Assistants

Amama Mahmood, Junxiang Wang|arXiv (Cornell University)|Sep 25, 2023
Topic Modeling被引用数 8
ひとこと要約

論文は、Alexaと統合されたChatGPT搭載の音声アシスタントが、医療自己診断、クリエイティブな計画、討論タスクにおけるマルチターンの相互作用にどのように影響するかを検討し、より豊かな相互作用パターンと、誤りを吸収し破綻から回復する役割をVAが担うことを強調する。

ABSTRACT

Conventional Voice Assistants (VAs) rely on traditional language models to discern user intent and respond to their queries, leading to interactions that often lack a broader contextual understanding, an area in which Large Language Models (LLMs) excel. However, current LLMs are largely designed for text-based interactions, thus making it unclear how user interactions will evolve if their modality is changed to voice. In this work, we investigate whether LLMs can enrich VA interactions via an exploratory study with participants (N=20) using a ChatGPT-powered VA for three scenarios (medical self-diagnosis, creative planning, and discussion) with varied constraints, stakes, and objectivity. We observe that LLM-powered VA elicits richer interaction patterns that vary across tasks, showing its versatility. Notably, LLMs absorb the majority of VA intent recognition failures. We additionally discuss the potential of harnessing LLMs for more resilient and fluid user-VA interactions and provide design guidelines for tailoring LLMs for voice assistance.

研究の動機と目的

  • LLMsが単一ターンのクエリを超えた音声アシスタントの相互作用をどのように豊かにするかを理解する。
  • LLM搭載VAにおける状況特有の相互作用パターンと破綻を特定する。
  • VAの誤り吸収能力と回復シーケンスのトリガーを評価する。
  • 音声インターフェースへ適応させるためのテキスト中心のLLMの設計指針を提供する。

提案手法

  • デュアルミドルマンAPIを介してレイテンシと会話履歴を管理するChatGPT-in-Alexaのプロトタイプを作成。
  • 三つのタスク(医療自己診断、クリエイティブ計画、討論)で20名の参加者を対象に探索的研究を実施。
  • テーマ分析と発話行為/属性フレームワークを用いて相互作用パターンと破綻を収集・分析。
  • システムメッセージを用いて状況に適したペルソナ(医療、計画、討論)をChatGPTに作成させる。
  • 対話の流れを維持するための起動語とフォールバック対話戦略を実装。

実験結果

リサーチクエスチョン

  • RQ1異なるタスクを横断して、ユーザーが音声を介してLLM搭載VAと会話する際にどのような新しい相互作用パターンが現れるか。
  • RQ2音声アシスタントにおける誤り吸収、破綻回復、全体的な会話の回復力に対するLLMsの影響はどのようになるか。
  • RQ3堅牢な音声対話のためにテキスト中心のLLMsを適応させるにはどのような設計上の考慮が必要か。
  • RQ4ユーザーの目標とタスク制約はVA-およびユーザー発の回復戦略にどのように影響するか。

主な発見

  • LLM搭載VAは、従来のVAに比べてタスクに依存した豊かな相互作用パターンを引き出す。
  • VAは意図認識の失敗の大半を吸収し、回復シーケンスを自発的に開始する。
  • シナリオを跨いでも、VAは文脈保持と適応力を示し、特定の会話の破綻を減少させる。
  • 設計指針には階層的な応答構造、プロンプトの再設計、音声利用におけるLLMsの利点と課題のバランスが含まれる。
  • デュアルミドルマンAPIによるレイテンシ管理により、Alexa内の応答ウィンドウを確保し、ユーザー体験をシームレスに保つことができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。