Skip to main content
QUICK REVIEW

[论文解读] Reward Prediction with Factorized World States

Yijun Shen, Delong Chen|arXiv (Cornell University)|Mar 10, 2026
Reinforcement Learning in Robotics被引用 0
一句话总结

本文提出 StateFactory,一种语义因式分解方法,将观测转换为对象–属性层次以进行零-shot 奖励预测,并提出 RewardPrediction 基准来评估跨领域的奖励质量。StateFactory 实现了强零-shot 的 EPIC 距离下降和规划性能提升。

ABSTRACT

Agents must infer action outcomes and select actions that maximize a reward signal indicating how close the goal is to being reached. Supervised learning of reward models could introduce biases inherent to training data, limiting generalization to novel goals and environments. In this paper, we investigate whether well-defined world state representations alone can enable accurate reward prediction across domains. To address this, we introduce StateFactory, a factorized representation method that transforms unstructured observations into a hierarchical object-attribute structure using language models. This structured representation allows rewards to be estimated naturally as the semantic similarity between the current state and the goal state under hierarchical constraint. Overall, the compact representation structure induced by StateFactory enables strong reward generalization capabilities. We evaluate on RewardPrediction, a new benchmark dataset spanning five diverse domains and comprising 2,454 unique action-observation trajectories with step-wise ground-truth rewards. Our method shows promising zero-shot results against both VLWM-critic and LLM-as-a-Judge reward models, achieving 60% and 8% lower EPIC distance, respectively. Furthermore, this superior reward quality successfully translates into improved agent planning performance, yielding success rate gains of +21.64% on AlfWorld and +12.40% on ScienceWorld over reactive system-1 policies and enhancing system-2 agent planning. Project Page: https://statefactory.github.io

研究动机与目标

  • 驱动鲁棒的奖励预测,使其能够在无任务特定监督下泛化到新目标与新环境。
  • 提出使用语言模型对世界状态进行对象–属性层次的语义因式分解。
  • 使奖励估计成为当前状态与目标状态在层次化约束下的语义相似度。
  • 评估零-shot 奖励泛化及其对不同领域规划性能的影响。
  • 提供一个基准(RewardPrediction),以在文本环境中严格评估逐步奖励质量。

提出的方法

  • 引入 StateFactory,将观测分解为结构化的对象–属性状态,并迭代地锚定一个动态目标状态。
  • 使用循环状态提取函数生成具有身份标识和不断演化属性的一组对象实例。
  • 通过迭代的目标解释函数将目标锚定为一个动态图表示。
  • 通过对象–属性的层次对齐,将当前状态与锚定目标状态在语义相似性层面计算奖励。
  • 在五个领域通过 EPIC 距离对奖励信号与地真逐步奖励进行评估。

实验结果

研究问题

  • RQ1零-shot 的 StateFactory 是否提供比基线更准确的奖励信号?
  • RQ2StateFactory 是否比有监督奖励模型对未见领域具有更好的泛化能力?
  • RQ3表示的粒度(对象 vs 对象–属性)如何影响性能?
  • RQ4StateFactory 对嵌入、骨架模型和推理能力的选择有多鲁棒?

主要发现

  • StateFactory 的零-shot 平均 EPIC 距离为 0.297,超过最佳的无表示基线并接近有监督的上限。
  • 有监督的奖励模型对新领域的泛化表现较差,奖励预测误差平均增加 138%。
  • StateFactory 的细粒度对象–属性状态表示降低了噪声,并改善了与目标的对齐。
  • 增加大模型的推理能力和嵌入的判别性能提升奖励对齐度。
  • 来自 StateFactory 的奖励信号转化为规划收益,例如 AlfWorld 的成功率提升 +21.64%、ScienceWorld 的提升 +12.40%(ReAct + StateFactory)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。