[論文レビュー] Understanding User Experience in Large Language Model Interactions
本研究は、一般的なLLMインターフェースのユーザー意図の分類法を開発し、満足度と懸念を評価するために411人の参加者を対象とした調査を実施し、ユーザー中心の人間とAIの協働を高めるための6つの将来の研究方向を提案する。
In the rapidly evolving landscape of large language models (LLMs), most research has primarily viewed them as independent individuals, focusing on assessing their capabilities through standardized benchmarks and enhancing their general intelligence. This perspective, however, tends to overlook the vital role of LLMs as user-centric services in human-AI collaboration. This gap in research becomes increasingly critical as LLMs become more integrated into people's everyday and professional interactions. This study addresses the important need to understand user satisfaction with LLMs by exploring four key aspects: comprehending user intents, scrutinizing user experiences, addressing major user concerns about current LLM services, and charting future research paths to bolster human-AI collaborations. Our study develops a taxonomy of 7 user intents in LLM interactions, grounded in analysis of real-world user interaction logs and human verification. Subsequently, we conduct a user survey to gauge their satisfaction with LLM services, encompassing usage frequency, experiences across intents, and predominant concerns. This survey, compiling 411 anonymous responses, uncovers 11 first-hand insights into the current state of user engagement with LLMs. Based on this empirical analysis, we pinpoint 6 future research directions prioritizing the user perspective in LLM developments. This user-centered approach is essential for crafting LLMs that are not just technologically advanced but also resonate with the intricate realities of human interactions and real-world applications.
研究の動機と目的
- 実世界のログと人間による検証に基づいた、一般的なLLMインターフェースのユーザー意図の分類を定義する。
- 大規模調査を通じて、意図別に現在のLLMサービスへのユーザー満足度を評価する。
- ユーザー中心のLLM設計を通知するために、使用パターン、経験、主要な懸念を特定して、ユーザー中心のLLM設計に役立てる。
- 現在の評価と現実世界のユーザーニーズのギャップを明らかにし、将来の研究方向を導く。
提案手法
- 関連文献、実世界のログ、および人間による検証を用いて、LLMインタラクションの七つの意図分類を開発・検証する。
- 複数の評価者による英語のShareGPTログのアノデーションを通じて、分類を検証・精練する。
- 使用、意図ごとの経験、および懸念を測るための12問・411回答のユーザー調査を設計・実施する。
- 中国語と英語の回答を横断して、使用頻度、意図分布、満足度、ツールの期待を分析する。
- カイ二乗の相互依存性に基づいて意図をクラスタリングし、GUIベースの客観利用、GUIベースの主観利用、APIベースの利用という3つの使用カテゴリを特定する。
- 11の洞察を抽出・要約し、ユーザー中心のLLM開発のための6つの将来研究方向を議論する。
実験結果
リサーチクエスチョン
- RQ1RQ1: LLMによって提供される対話型インターフェースを利用する主なユーザー意図は何ですか?
- RQ2RQ2: 現実世界の設定で現在のLLMサービスと対話する際、ユーザーは自分の経験をどのように認識しますか?
- RQ3RQ3: 大規模言語モデルを使用する際、ユーザーが持つ主な懸念は何ですか?
- RQ4RQ4: より良い人間とAIの協働のための、ユーザー中心の大規模言語モデルを構築する将来の方向性は何ですか?
主な発見
- 参加者の約80%が少なくとも週に1回LLMsを使用し、英語回答者の約半分と中国語回答者の42.09%が毎日利用している。
- 七つの意図が三つのグループにクラスタリングされる:GUIを介した客観的利用、GUIを介した主観的利用、APIを介した利用。
- Text Assistant、Information Retrieval、and Solve Problems in Specialized Areasが上位3つの使用シナリオ。
- 創造性を求める Seek Creativity や Ask for Advice のような主観的意図は一般的だが、先行研究では過小評価されている可能性がある;娯楽目的の使用は相対的に低い。
- テキスト関連/テキスト操作タスクは高い満足度(80%を超える)を示す一方、Seek Creativityは最も不満が大きく、文化を跨ぐ差が満足度に影響する(例:Solve Problems は中国語話者と英語話者で異なる)。
- 主観的な意図のすべてでパーソナライズが重視され、異なる言語や文化的文脈に合わせたLLMの調整が必要である。ユーザーの懸念は能力と信頼性(幻覚、長いコンテキスト、マルチモーダル、プライバシー、安全性)に集中している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。