[論文レビュー] IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference
IntProは、個々のユーザーの意図履歴を用いてユーザーの意図を推論・説明する retrieval-conditioned proxy agent を導入し、直接推論と retrieval-based reasoning を Human-Proxy-LLM フレームワーク内で統合する。
Large language models (LLMs) have become integral to modern Human-AI collaboration workflows, where accurately understanding user intent serves as a crucial step for generating satisfactory responses. Context-aware intent understanding, which involves inferring user intentions from situational environments, is inherently challenging because it requires reasoning over both the immediate context and the user's underlying motivations that drive their behavior. Moreover, existing approaches often treat intent understanding as a static recognition task, overlooking users' accumulated intent patterns that could provide valuable references for more accurate and generalizable understanding. To address this gap, we propose IntPro, a proxy agent that learns to adapt to individual users via retrieval-conditioned intent inference. We design intent explanations that abstract how contextual signals connect to expressed intents, and store them in an individual intent history library for retrieval. We train IntPro through supervised fine-tuning on retrieval-conditioned trajectories and multi-turn Group Relative Policy Optimization (GRPO) with tool-aware reward functions, enabling the agent to learn when to leverage historical intent patterns and when to infer directly. Experiments across three diverse scenarios (Highlight-Intent, MIntRec2.0, and Weibo Post-Sync) demonstrate that IntPro achieves strong intent understanding performance with effective context-aware reasoning capabilities across different scenarios and model types.
研究の動機と目的
- 対話履歴と状況コンテキストの両方を活用して文脈に基づく意図理解を動機づける。
- LLM の回答を導くための意図ラベルと自然言語の説明を生成できる proxy agent を開発する。
- 意図履歴ライブラリからユーザー固有の意図パターンを保存・検索してパーソナライズを実現する。
- retrieval-conditioned 推論のための教師あり微調整と強化学習を組み合わせた学習フレームワークを設計する。
提案手法
- 文脈と意図を説明文を伴うラベルとして定義する。
- (ユーザー、意図ラベル、説明)を保存する per-user 意図履歴ライブラリを構築する。
- 教師モデルと検索ツールを用いて類似の過去パターンを取得し、retrieval-conditioned inference の軌跡を生成する。
- retrieval-conditioned 軌跡上で教師あり学習による微調整を行う。
- 直接推論と検索ベースの戦略のバランスを取るためにツール認識報酬関数を用いた GRPO を適用する。
- 監視付き微調整に続く強化学習という二段階の学習パイプラインを用いる。

実験結果
リサーチクエスチョン
- RQ1現在の文脈と個人化された意図履歴を統合して proxy agent はユーザーの意図を推論・説明できるか?
- RQ2検索条件付きの説明は多様なシナリオにおける静的認識より意図理解を改善するか?
- RQ3文脈の難易度の変化に応じて直接推論と検索ベース推論のバランスはどう設計すべきか?
- RQ4個人化された意図説明が検索精度と一般化に与える影響は?
- RQ5ツール認識報酬を用いた GRPO は検索 conditioned 意図推論の最適化に有効か?
主な発見
- IntPro は文脈信号と表現された意図を結ぶ意図ラベルと説明を生成する方法を学習する。
- 検索履歴は個人化された意図パターンの照合を可能にし、検索精度を改善する。
- 本フレームワークは直接推論と検索 conditioned 推論の両方をサポートし、文脈難易度に適応する。
- 多様なシナリオでの実験は、モデルタイプを問わず強力な意図理解と文脈認識的推論を示す。
- ツール認識報酬を用いた GRPO はエージェントが推論戦略を効果的にバランスさせるよう導く。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。