QUICK REVIEW

[論文レビュー] Conversational Assistants in Knowledge-Intensive Contexts: An Evaluation of LLM- versus Intent-based Systems

Samuel Kernan Freire, Chaofan Wang|arXiv (Cornell University)|Feb 7, 2024

AI in Service Interactions被引用数 7

ひとこと要約

本論文は、知識要求が高い工場環境におけるLLMベースの認知アシスタントと意図ベースのシステムを比較し、LLMベースのCAがタスク完了、使いやすさ、ユーザー体験を向上させる一方で、入力提案に関する留意点やLLMsの幻覚の可能性がある、という知見を示している。

ABSTRACT

Conversational Assistants (CA) are increasingly supporting human workers in knowledge management. Traditionally, CAs respond in specific ways to predefined user intents and conversation patterns. However, this rigidness does not handle the diversity of natural language well. Recent advances in natural language processing, namely Large Language Models (LLMs), enable CAs to converse in a more flexible, human-like manner, extracting relevant information from texts and capturing information from expert humans but introducing new challenges such as ``hallucinations''. To assess the potential of using LLMs for knowledge management tasks, we conducted a user study comparing an LLM-based CA to an intent-based system regarding interaction efficiency, user experience, workload, and usability. This revealed that LLM-based CAs exhibited better user experience, task completion rate, usability, and perceived performance than intent-based systems, suggesting that switching NLP techniques can be beneficial in the context of knowledge management.

研究の動機と目的

LLMベースの対話アシスタントが、工場内の知識共有と情報検索タスクにおいて、意図ベースのシステムとどのように性能を比較するかを探索する。
両アプローチの相互作用効率、ワークロード、ユーザー体験、使いやすさを評価する。
産業環境で認知アシスタントを用いた知識管理システムの設計決定を支援する。

提案手法

情報検索と知識共有のために、同じ知識ベースを用いて、2つの工場で認知的に類似した2つのアシスタント（intent-basedとLLM-based）を開発した。
Intent-based CAはRasa Xで構築；LLM-based CAはLlamaIndex、Gradio、およびGPT-3.5を用い、システムプロンプトと文脈取得（RAG）で応答を生成した。
インターフェースは視覚的に類似になるように比較したが、意図ベースCAは画像、LLMベースCAはテキスト出力という視覚的差異を指摘した。
N=55の産業デザイン学生を対象とした群間デザインで、タスク時間、タスク完了率、SUS、UEQ、NASA-TLXを評価した（n_intent=17、n_llm=35）。
タスクは、事前定義されたシナリオ内での情報検索と知識共有を含み、10分の制限時間が設定された。

実験結果

リサーチクエスチョン

RQ1RQ: LLMとIntentベースの認知アシスタントは、労働者の相互作用効率、システムの使いやすさ、ユーザー体験、認知的負荷として知覚される点でどのように異なるか。

主な発見

LLMベースのCAは平均タスク時間が短く（301.11s）／intentベースは376.25sだが、統計的有意差はなし（p = .068）。
LLMベースのCAはタスク完了率の中央値が高く（1.00）、intentベース群の中央値は0.88（U = 153.50, p = .006）。
System Usability Scale（SUS）はLLMベースが高く（平均59.85、SD 17.47）intentベースは44.85、SD 16.75、p = .005。
UEQは魅力、理解、効率、信頼性のすべてでLLMベースを支持（有意差：魅力 p = .029、理解 p = .009、効率 p < .001、信頼性 p = .01）。
NASA-TLXのワークロードではパフォーマンス指標に有意差があり、LLM中位4に対しIntent中位10（U = 123.50, p = .001）。
総じて、参加者はLLMベースのCAで知覚的なパフォーマンスとUXが向上すると報告する一方、入力提案の必要性やLLMsの幻覚リスクに関するフィードバックもあった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。