[论文解读] IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference
IntPro 引入了一个受检索条件驱动的代理代理,在每个用户的意图历史基础上推断并解释用户意图,在人-代理-LLM 框架内结合直接推断与基于检索的推理。
Large language models (LLMs) have become integral to modern Human-AI collaboration workflows, where accurately understanding user intent serves as a crucial step for generating satisfactory responses. Context-aware intent understanding, which involves inferring user intentions from situational environments, is inherently challenging because it requires reasoning over both the immediate context and the user's underlying motivations that drive their behavior. Moreover, existing approaches often treat intent understanding as a static recognition task, overlooking users' accumulated intent patterns that could provide valuable references for more accurate and generalizable understanding. To address this gap, we propose IntPro, a proxy agent that learns to adapt to individual users via retrieval-conditioned intent inference. We design intent explanations that abstract how contextual signals connect to expressed intents, and store them in an individual intent history library for retrieval. We train IntPro through supervised fine-tuning on retrieval-conditioned trajectories and multi-turn Group Relative Policy Optimization (GRPO) with tool-aware reward functions, enabling the agent to learn when to leverage historical intent patterns and when to infer directly. Experiments across three diverse scenarios (Highlight-Intent, MIntRec2.0, and Weibo Post-Sync) demonstrate that IntPro achieves strong intent understanding performance with effective context-aware reasoning capabilities across different scenarios and model types.
研究动机与目标
- 通过利用交互历史和情境上下文来推断用户目标,激发上下文感知的意图理解。
- 开发一个能够生成意图标签和自然语言解释以引导LLM回应的代理代理。
- 通过存储和检索来自意图历史库的用户特定意图模式来实现个性化。
- 设计一个将监督微调与强化学习结合起来的训练框架,用于检索条件推断。
提出的方法
- 将上下文和意图定义为带有说明文本的标签。
- 构建一个按用户存储(用户、意图标签、解释)的意图历史库。
- 使用教师模型和检索工具获取相似历史模式来生成检索条件推断轨迹。
- 在检索条件轨迹上进行有监督学习的微调。
- 应用带工具感知奖励函数的GRPO,以在直接推断与基于检索的策略之间取得平衡。
- 使用两阶段训练流程:先进行有监督微调,再进行强化学习。

实验结果
研究问题
- RQ1代理代理如何通过将当前上下文与个性化意图历史相结合来推断并解释用户意图?
- RQ2检索条件化的解释是否能在不同情景下相较静态识别提升意图理解?
- RQ3在不同的上下文难度下,训练应如何在直接推断与基于检索的推理之间取得平衡?
- RQ4个性化意图解释对检索准确性和泛化性有何影响?
- RQ5带工具感知奖励的GRPO在优化检索条件推断中的有效性如何?
主要发现
- IntPro 学会生成将上下文信号与表达的意图联系起来的意图标签和解释。
- 检索历史使个性化意图模式匹配成为可能,并提升检索准确性。
- 该框架同时支持直接推断与检索条件推断,能适应不同的上下文难度。
- 在多样化情景下的实验显示出强烈的意图理解与上下文感知推理,适用于多种模型类型。
- 带工具感知奖励的GRPO 指导代理有效平衡推断策略。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。