QUICK REVIEW

[論文レビュー] GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant

Zebang Shen, Yifan Wang|arXiv (Cornell University)|Mar 1, 2026

AI in Service Interactions被引用数 0

ひとこと要約

GroupGPT は小–大規模モデル協調のトークン効率が高く、プライバシーを保護するマルチユーザー対話エージェント枠組み、新しい MUIR ベンチマーク、そして最大 3× のトークン節約で高品質な応答を実証。

ABSTRACT

Recent advances in large language models (LLMs) have enabled increasingly capable chatbots. However, most existing systems focus on single-user settings and do not generalize well to multi-user group chats, where agents require more proactive and accurate intervention under complex, evolving contexts. Existing approaches typically rely on LLMs for both reasoning and generation, leading to high token consumption, limited scalability, and potential privacy risks. To address these challenges, we propose GroupGPT, a token-efficient and privacy-preserving agentic framework for multi-user chat assistant. GroupGPT adopts a small-large model collaborative architecture to decouple intervention timing from response generation, enabling efficient and accurate decision-making. The framework also supports multimodal inputs, including memes, images, videos, and voice messages. We further introduce MUIR, a benchmark dataset for multi-user chat assistant intervention reasoning. MUIR contains 2,500 annotated group chat segments with intervention labels and rationales, supporting evaluation of timing accuracy and response quality. We evaluate a range of models on MUIR, from large language models to smaller counterparts. Extensive experiments demonstrate that GroupGPT produces accurate and well-timed responses, achieving an average score of 4.72/5.0 in LLM-based evaluation, and is well received by users across diverse group chat scenarios. Moreover, GroupGPT reduces token usage by up to 3 times compared to baseline methods, while providing privacy sanitization of user messages before cloud transmission. Code is available at: https://github.com/Eliot-Shen/GroupGPT .

研究の動機と目的

マルチユーザーグループチャットにおける、単一ユーザーチャットボットを超えた積極的で正確な介入を促進する。
介入タイミングを応答生成から切り離すことでトークン消費とコストを削減する。
クラウド処理前のオンデバイス風サニタイズを通じてユーザープライバシーを保護する。
グループチャットでの画像、ミーム、動画、音声メッセージなどのマルチモーダル入力をサポートする。
公開可能なベンチマーク（MUIR）を提供し、この設定で多様なモデルタイプを評価する。

提案手法

Intervention Judge、Privacy Transcriber、Multimodal Processor、Chat Frequency Logger、Final Respondent の五つのコンポーネントからなる GroupGPT を提案する。
小–大規模モデル協調を用いて介入タイミングを応答生成から切り離し、効率化を図る。
軽量な Privacy Transcriber が PII を再編集して大規模モデルによる処理前にプライバシーを保護するパイプラインを導入する。
非文本コンテンツを型タグ付きの構造化テキスト表現へ変換することでマルチモーダル理解を拡張する。
非同期処理と同期バリアを備えたトークン効率の高い推論パイプラインを用いて不要な LLM 呼び出しを削減する。
介入推論のための 2,500 件の注釈付きグループチャットセグメントを含む MUIR を導入し、介入のタイミングの正確さと応答品質を評価する。

実験結果

リサーチクエスチョン

RQ1動的な複数ユーザーの会話において、グループチャット補助ツールがいつどのように介入すべきかを信頼性高く判断するにはどうすればよいか。
RQ2トークン効率が高くプライバシーを保護するアーキテクチャが、マルチモーダルなグループチャットで高品質かつタイムリーな介入を維持できるか。
RQ3軽量な Intervention Judge が介入の正確さとタイミングに及ぼす影響は、大規模 LLM と比較してどうか。
RQ4クラウド処理前のプライバシーサニタイズは、有用性を損なうことなくプライバシーリスクを意味なく低減するか。
RQ5GroupGPT は現実的で多様なグループチャットのシナリオとトピックセットでどのように性能を発揮するか。

主な発見

GroupGPT は高品質で適時性の高い応答を達成し、LLM ベースの評価で平均 4.72 / 5.0 のスコアを得た。
トークン使用量はベースライン手法と比較して最大 3× 削減。
エンドツーエンドの平均推論待ち時間は約 4.3 秒、介入が不要な場合は約 0.97 秒まで低下する場合がある。
Privacy Transcriber はクラウ transmission 前にプライバシーをサニタイズした入力を可能にし、実用性を維持しつつプライバシーリスクを緩和する。
MUIR は介入推論のための 2,500 件の注釈付きグループチャットセグメントを提供し、介入のタイミング正確さと応答品質の評価を支援し、一部のタスクにおいて軽量な Intervention Judge モデルが大規模 LLM よりも上回ることがある。
GroupGPT のコードは著者の GitHub リポジトリで利用可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。