Skip to main content
QUICK REVIEW

[论文解读] Greedy Is Enough: Sparse Action Discovery in Agentic LLMs

Angshul Majumdar|arXiv (Cornell University)|Jan 13, 2026
Multi-Agent Systems and Negotiation被引用 0
一句话总结

该论文提出一种贪心的、类似正交匹配追踪(Orthogonal Matching Pursuit,OMP)的方法,用以在极其庞大的动作空间中恢复一个小型、状态相关的相关行动集合,并在重拟合后提供可证明的恢复保证和接近最优的决策性能。

ABSTRACT

Modern agentic systems operate in environments with extremely large action spaces, such as tool-augmented language models with thousands of available APIs or retrieval operations. Despite this scale, empirical evidence suggests that only a small subset of actions meaningfully influences performance in a given deployment. Motivated by this observation, we study a contextual linear reward model in which action relevance is governed by a structured sparsity assumption: only a small number of actions have nonzero effects across latent states. We formulate action discovery as a block-sparse recovery problem and analyze a greedy algorithm inspired by Orthogonal Matching Pursuit. Under standard assumptions on incoherence, signal strength, and action coverage, we prove that the greedy procedure exactly recovers the relevant action set with high probability, using a number of samples that scales polynomially in the sparsity level and latent dimension, and only logarithmically in the total number of actions. We further provide estimation error guarantees for refitted parameters and show that the resulting decision rule is near-optimal for new latent states. Complementing these results, we establish information-theoretic lower bounds demonstrating that sparsity and sufficient coverage are necessary for tractability. Together, our results identify sparse action discovery as a fundamental principle underlying large-action decision-making and provide a theoretical foundation for action pruning in agentic systems.

研究动机与目标

  • 在具有巨大动作空间的环境中,激励识别对奖励有实质性影响的少量行动的重要性。
  • 形式化一个状态相关的稀疏性模型,其中任何潜在状态下仅有少量动作会影响奖励。
  • 提出一种贪心的、类似块OMP(block-OMP)风格的算法,从数据中恢复相关的动作集合。
  • 提供对精确支持恢复和重拟合后估计误差的理论保证。
  • 证明稀疏性在可行学习中的信息理论必要性。

提出的方法

  • 将奖励建模为线性模型,其中每个行动对应高维参数 W* 的一个块,在动作之间具有稀疏性。
  • 建模状态相关的稀疏性:只有少量集合 S* 的动作在跨潜在状态时具有非零影响。
  • 引入上下文块正交匹配追踪(Contextual Block Orthogonal Matching Pursuit),贪心地选择其特征块与残差最相关的动作。
  • 在恢复的支持上重拟合参数,并为新的潜在状态推导一个插件式决策规则。
  • 在不相干性和信号强度条件下,证明对真支持的精确恢复,样本复杂度随 d 的多项式增长、并对动作数量对数增长。

实验结果

研究问题

  • RQ1在潜在状态表示下,贪心、稀疏恢复方法是否能在极大的动作空间中识别出真正相关的行动?
  • RQ2在什么条件下算法能够精确恢复真实行动集合的支持,以及需要多少样本?
  • RQ3稀疏性如何影响对新潜在状态的估计误差和近似最优的决策质量?
  • RQ4是否存在基本的下界,表明在此情形下稀疏性对于可行学习是必要的?

主要发现

  • 上下文块OMP在满足标准的不相干性与信号强度假设时,可以以高概率精确恢复真正相关动作集合。
  • 样本复杂度对动作总数对数缩放,对稀疏性和潜在维度多项式缩放。
  • 在恢复出支持集合后,重拟合可获得受控的估计误差和针对新潜在状态的近似最优决策规则。
  • 存在信息论下界,表明若不具备稀疏性,样本复杂度必须与动作维度线性相关。
  • 结果确立了稀疏性作为在具有大动作空间的代理系统中进行可行决策的核心原则。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。