[論文レビュー] Greedy Is Enough: Sparse Action Discovery in Agentic LLMs
paperは、非常に大規模なアクション空間において、状態依存の関連アクションの小さなサブセットを回収するための貪欲法、Orthogonal Matching Pursuit風アルゴリズムを提案し、回復保証とリフィット後のほぼ最適な意思決定性能を提供します。
Modern agentic systems operate in environments with extremely large action spaces, such as tool-augmented language models with thousands of available APIs or retrieval operations. Despite this scale, empirical evidence suggests that only a small subset of actions meaningfully influences performance in a given deployment. Motivated by this observation, we study a contextual linear reward model in which action relevance is governed by a structured sparsity assumption: only a small number of actions have nonzero effects across latent states. We formulate action discovery as a block-sparse recovery problem and analyze a greedy algorithm inspired by Orthogonal Matching Pursuit. Under standard assumptions on incoherence, signal strength, and action coverage, we prove that the greedy procedure exactly recovers the relevant action set with high probability, using a number of samples that scales polynomially in the sparsity level and latent dimension, and only logarithmically in the total number of actions. We further provide estimation error guarantees for refitted parameters and show that the resulting decision rule is near-optimal for new latent states. Complementing these results, we establish information-theoretic lower bounds demonstrating that sparsity and sufficient coverage are necessary for tractability. Together, our results identify sparse action discovery as a fundamental principle underlying large-action decision-making and provide a theoretical foundation for action pruning in agentic systems.
研究の動機と目的
- 報酬に意味のある影響を与える少数のアクションを、巨大なアクション空間環境で特定する必要性を動機づける。
- 潜在状態ごとにアクションが影響を与える非ゼロのアクションが少数であるという状態依存のスパース性モデルを形式化する。
- データから関連アクション集合を回収する貪欲な、ブロック-OMP風アルゴリズムを提案する。
- 正確なサポート回復とリフィット後の推定誤差に関する理論的保証を提供する。
- 学習が扱いやすいことのためのスパース性の情報理論的必然性を示す。
提案手法
- 各アクションが高次元パラメータW*のブロックに対応し、アクション全体でスパース性をとるという形で報酬を線形モデルとして定式化する。
- 状態依存のスパース性をモデル化する:潜在状態全体で影響を持つ非ゼロのアクション集合S*は小さい。
- Contextual Block Orthogonal Matching Pursuitを導入し、残差と最も相関する特徴ブロックを持つアクションを貪欲に選択する。
- 回収したサポート上でパラメータを再適合させ、新しい潜在状態に対するプラグイン決定規則を導出する。
- 非相関性と信号強度条件の下で真のサポートを正確に回復することを証明し、サンプル複雑さが多項式(d)およびアクション数の対数に比例する。
実験結果
リサーチクエスチョン
- RQ1潜在状態表現を前提とした非常に大規模なアクション空間において、貪欲でスパースな回復法は本当に関連するアクションを特定できるのか?
- RQ2アルゴリズムが真のアクション集合のサポートを正確に回復できる条件と、それに伴うサンプル複雑さはどのようになるのか?
- RQ3スパース性は新しい潜在状態に対する推定誤差とほぼ最適な意思決定品質にどのように影響するのか?
- RQ4この設定でスパース性が扱いやすい学習に必要であることを示す基本的な下界は存在するのか?
主な発見
- Contextual Block-OMPは、標準的な非相関性と信号強度仮定の下で真の関連アクション集合を高い確率で正確に回復できる。
- サンプル複雑さはアクション数の対数的に、スパース性と潜在次元に対して多項式的にスケールする。
- サポートを回復した後のリフィットは推定誤差を制御し、新しい潜在状態に対してほぼ最適な意思決定規則を提供する。
- スパース性がない場合、サンプル複雑さがアクション次元に対して線形にスケールするという情報理論的下界が存在する。
- この結果は、大規模アクション空間を持つエージェント的システムにおける意思決定を扱いやすくするためのコア原理としてスパース性を確立する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。