QUICK REVIEW

[논문 리뷰] Conversational Assistants in Knowledge-Intensive Contexts: An Evaluation of LLM- versus Intent-based Systems

Samuel Kernan Freire, Chaofan Wang|arXiv (Cornell University)|2024. 02. 07.

AI in Service Interactions인용 수 7

한 줄 요약

본 논문은 지식집약적 제조 현장에서 LLM 기반 인지 보조(CAs)와 의도 기반 시스템을 비교하여, LLM 기반 CA가 작업 완성도, 사용성 및 사용자 경험을 향상시키는 반면, 입력 제안과 잠재적 환각 위험에 대한 몇 가지 주의를 제시한다.

ABSTRACT

Conversational Assistants (CA) are increasingly supporting human workers in knowledge management. Traditionally, CAs respond in specific ways to predefined user intents and conversation patterns. However, this rigidness does not handle the diversity of natural language well. Recent advances in natural language processing, namely Large Language Models (LLMs), enable CAs to converse in a more flexible, human-like manner, extracting relevant information from texts and capturing information from expert humans but introducing new challenges such as ``hallucinations''. To assess the potential of using LLMs for knowledge management tasks, we conducted a user study comparing an LLM-based CA to an intent-based system regarding interaction efficiency, user experience, workload, and usability. This revealed that LLM-based CAs exhibited better user experience, task completion rate, usability, and perceived performance than intent-based systems, suggesting that switching NLP techniques can be beneficial in the context of knowledge management.

연구 동기 및 목표

공장 내 지식 공유 및 정보 검색 작업에서 LLM 기반 대화형 보조가 의도 기반 시스템에 비해 어떤 성능을 보이는지 탐색한다.
두 접근 방식의 상호작용 효율성, 작업부하, 사용자 경험 및 사용성을 평가한다.
산업 현장에서 인지 보조를 활용한 지식 관리 시스템의 설계 의사결정에 정보를 제공한다.

제안 방법

두 개의 인지적으로 유사한 보조 도구를 개발했다(의도 기반 및 LLM 기반), 두 공장에서 정보 검색 및 지식 공유를 위해 동일한 지식 기반을 사용.
의도 기반 CA는 Rasa X로 구축했고, LLM 기반 CA는 LlamaIndex, Gradio, 및 GPT-3.5로 구축했으며, 응답에 시스템 프롬프트와 컨텍스트 검색(RAG)을 사용했다.
인터페이스를 시각적으로 유사하게 비교하되 시각적 차이점을 주목했다(의도 기반 CA는 이미지, LLM 기반 CA는 텍스트 출력).
N=55의 산업 디자인 학생을 대상으로 그룹 간 사용자 연구를 수행했다( n_intent=17, n_llm=35 ), 작업 시간, 작업 완료율, SUS, UEQ 및 NASA-TLX를 평가했다.
사전에 정의된 시나리오에서 정보 검색 및 지식 공유를 포함하며 10분의 시간 제한이 있었다.

실험 결과

연구 질문

RQ1RQ: LLM 및 의도 기반 인지 보조가 작업자의 상호작용 효율성, 시스템 사용성, 사용자 경험 및 인지된 작업부하 측면에서 어떻게 비교되는가?

주요 결과

LLM 기반 CA의 평균 작업 시간은 짧았고(301.11s) 의도 기반(376.25s) 대비 차이가 있지만 통계적으로 유의하지 않다(p = .068).
LLM 기반 CA가 중앙값 작업 완료율에서 더 높았다(1.00) 의도 기반 그룹(.88)보다 (U = 153.50, p = .006).
SUS 점수는 LLM 기반이 더 높았다(평균 59.85, SD 17.47) 의도 기반(평균 44.85, SD 16.75)보다 p = .005.
UEQ 결과는 매력성, 명료성, 효율성 및 신뢰성 측면에서 LLM 기반을 선호했다(유의한 차이, p값: Attractiveness p = .029; Perspicuity p = .009; Efficiency p < .001; Dependability p = .01).
NASA-TLX 작업부하에서 성능 구성요소에 유의한 차이가 나타났다(LLM 중앙값 4 vs. 의도 중앙값 10; U = 123.50, p = .001).
전반적으로 참가자들은 LLM 기반 CA에서 인지된 성능과 UX가 더 높다고 보고했으며, 일부 피드백은 입력 제안의 필요성과 LLM의 환각 위험을 지적했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.