[論文レビュー] Can Large Language Models Be Good Companions? An LLM-Based Eyewear System with Conversational Common Ground
本論文は OS-1 を提示する。LLM ベースのスマート眼鏡システムで、リアルタイムのマルチモーダルコンテキストを捉え、歴史的文脈とユーザープロファイルを形成し、LLMs による個別化された応答を生成することで、ユーザーと対話的な共通理解を構築する。
Developing chatbots as personal companions has long been a goal of artificial intelligence researchers. Recent advances in Large Language Models (LLMs) have delivered a practical solution for endowing chatbots with anthropomorphic language capabilities. However, it takes more than LLMs to enable chatbots that can act as companions. Humans use their understanding of individual personalities to drive conversations. Chatbots also require this capability to enable human-like companionship. They should act based on personalized, real-time, and time-evolving knowledge of their owner. We define such essential knowledge as the extit{common ground} between chatbots and their owners, and we propose to build a common-ground-aware dialogue system from an LLM-based module, named extit{OS-1}, to enable chatbot companionship. Hosted by eyewear, OS-1 can sense the visual and audio signals the user receives and extract real-time contextual semantics. Those semantics are categorized and recorded to formulate historical contexts from which the user's profile is distilled and evolves over time, i.e., OS-1 gradually learns about its user. OS-1 combines knowledge from real-time semantics, historical contexts, and user-specific profiles to produce a common-ground-aware prompt input into the LLM module. The LLM's output is converted to audio, spoken to the wearer when appropriate.We conduct laboratory and in-field studies to assess OS-1's ability to build common ground between the chatbot and its user. The technical feasibility and capabilities of the system are also evaluated. OS-1, with its common-ground awareness, can significantly improve user satisfaction and potentially lead to downstream tasks such as personal emotional support and assistance.
研究の動機と目的
- LLMベースのパートナーにとって対話的共通地盤を不可欠と定義する。
- リアルタイムのマルチモーダルコンテキストを捉えて共通地盤を構築するスマート眼鏡OS-1を提案する。
- 時間とともに歴史的文脈を抽出し、ユーザープロファイルを蒸留する機構を開発する。
- 最小限のユーザー負担で、LLMs を用いた個別化・文脈認識対話生成を実現する。
- ラボおよび現地調査を通じて実現可能性とユーザー満足度を評価する。
提案手法
- 視覚と言語、音声モデルを用いて眼鏡の映像と音声からリアルタイムコンテキストを取得し、C_e^t を形成する。
- リアルタイムコンテキストを歴史的イベントにクラスタリングし、会話を要約して C_h を形成する。
- 歴史的コンテキストから信頼度スコアとともにユーザープロファイルを蒸留・更新する。
- 対話戦略エージェントと情報検索エージェントを用いて GPT-4 の個別化応答を生成するためのプロンプトを構築する。
- 眼鏡を軽量で常時動作させつつ、重い計算をクラウドへオフロードする。
実験結果
リサーチクエスチョン
- RQ1RS1: パーソナルコンテキストは、LLM ベースの対話システムがユーザーとの共通地盤を確立するのに役立つか。
- RQ2RS2: 異なる種類のパーソナルコンテキストは、個別化された LLM ベースの対話システム応答にどのように寄与するか。
主な発見
- OS-1 は、個人コンテキストなしのベースラインに対して Grounding スコアを 42.26% 改善する。
- OS-1 は、ベースラインに対して Relevance を 8.63%、Personalization を 40.00%、Engagement を 29.81% 改善する。
- 現地調査では Grounding スコアが時間とともに増加し、共通地盤の成長を示している。
- このシステムは感情的サポートや個人支援の潜在的な適用を可能にする。
- マルチモーダルで文脈認識するアプローチは、個人コンテキストを自動的に処理することで認知負荷を低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。