[论文解读] The PROPER Approach to Proactivity: Benchmarking and Advancing Knowledge Gap Navigation
Proper 引入一个两智能体架构(DGA 和 RGA),主动导航知识差距;在医疗、编码和购物领域的单轮任务和多轮互动中均优于强基线。
Most language-based assistants follow a reactive ask-and-respond paradigm, requiring users to explicitly state their needs. As a result, relevant but unexpressed needs often go unmet. Existing proactive agents attempt to address this gap either by eliciting further clarification, preserving this burden, or by extrapolating future needs from context, often leading to unnecessary or mistimed interventions. We introduce ProPer, Proactivity-driven Personalized agents, a novel two-agent architecture consisting of a Dimension Generating Agent (DGA) and a Response Generating Agent (RGA). DGA, a fine-tuned LLM agent, leverages explicit user data to generate multiple implicit dimensions (latent aspects relevant to the user's task but not considered by the user) or knowledge gaps. These dimensions are selectively filtered using a reranker based on quality, diversity, and task relevance. RGA then balances explicit and implicit dimensions to tailor personalized responses with timely and proactive interventions. We evaluate ProPer across multiple domains using a structured, gap-aware rubric that measures coverage, initiative appropriateness, and intent alignment. Our results show that ProPer improves quality scores and win rates across all domains, achieving up to 84% gains in single-turn evaluation and consistent dominance in multi-turn interactions.
研究动机与目标
- 将前瞻性形式化为一个校准问题,平衡显性用户意图与潜在知识差距。
- 引入用户需求的维度表示及面向领域的基准测试(ProPerBench)用于监督。
- 提出 Proper,一种模块化的两智能体架构,将知识差距发现与响应生成分离。
- 在医疗、编码和推荐域展示改进的任务效用与及时前瞻性。
提出的方法
- Dimension Generating Agent (DGA) 经过微调,以从用户状态中推断隐含的、与任务相关的维度并生成候选差距。
- 事后校准的重新排序器,通过在质量、显性需求对齐和多样性之间的效用目标来优化,选择一个有预算限制的候选维度子集。
- Response Generating Agent (RGA) 在显性维度与激活的隐式维度条件化的基础上,更新基线响应。
- 端到端的 Proper 流程:构建交互状态,生成基线 r0,DGA 提出维度,重新排序器选择 S_k*,RGA 生成更新后的响应,在保持意图的同时添加有针对性的前瞻性信息。

实验结果
研究问题
- RQ1RQ1: 与强基线相比,ProPer 是否在跨域任务效用方面实现端到端的改进?
- RQ2RQ2: DGA、重新排序和 RGA 组件单独对性能有何贡献?
- RQ3RQ3: 观察到的提升是否源于经过校准的前瞻性 而非仅仅是冗长?
- RQ4RQ4: ProPer 在多轮对话中是否仍保持鲁棒性?
主要发现
- Proper 在医疗、编码和 PWAB 领域持续提升任务效用,相对于强基线的大型语言模型和链式思维提示。
- 端到端的提升包括单轮评估中高达 84% 的改进,以及在多轮交互中的支配性表现。
- 消融研究显示去掉 DGA 会导致显著性能下降,而去掉重新排序器的降幅较小,突显隐式维度生成的重要性。
- DGA 推导的维度优于直接由基础 LLM 生成的维度,显示学习到的潜在差距的价值。
- 控制激活和多样性的校准参数(lambda1、lambda2)会影响领域敏感性,医疗和 PWAB 领域在更高激活下受益。
- 多轮评估显示在 11/12 的 Medical、9/12 的 Code-Contests 和 12/12 的 PWAB 对话中,ProPer 更受偏好,体现了校准前瞻性的稳定性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。