[论文解读] Information-Theoretic Bounded Rationality
本文提出了一种基于信息论的有限理性框架,通过自由能泛函建模资源约束下的决策行为。通过将效用最大化视为期望效用与信息成本之间的权衡,该框架实现了对策略的高效蒙特卡洛采样,将经典决策规则(如期望最大化的期望最大值和极小化最大值)作为极限情况加以推广,同时通过熵正则化捕捉模型不确定性。
Bounded rationality, that is, decision-making and planning under resource limitations, is widely regarded as an important open problem in artificial intelligence, reinforcement learning, computational neuroscience and economics. This paper offers a consolidated presentation of a theory of bounded rationality based on information-theoretic ideas. We provide a conceptual justification for using the free energy functional as the objective function for characterizing bounded-rational decisions. This functional possesses three crucial properties: it controls the size of the solution space; it has Monte Carlo planners that are exact, yet bypass the need for exhaustive search; and it captures model uncertainty arising from lack of evidence or from interacting with other agents having unknown intentions. We discuss the single-step decision-making case, and show how to extend it to sequential decisions using equivalence transformations. This extension yields a very general class of decision problems that encompass classical decision rules (e.g. EXPECTIMAX and MINIMAX) as limit cases, as well as trust- and risk-sensitive planning.
研究动机与目标
- 将有限理性形式化为效用最大化与信息处理成本之间的权衡。
- 为计算约束下的决策提供一个原则性、基于信息论的基础。
- 在单一框架内统一经典决策规则(如期望最大值、极小化最大值)与风险敏感规划。
- 通过精确的蒙特卡洛采样实现实际且可扩展的规划,避免穷举搜索。
- 通过价值函数的熵正则化,建模序列决策中的信任与不确定性。
提出的方法
- 使用自由能泛函作为目标函数,通过拉格朗日乘子将期望效用与信息成本(熵)相结合。
- 应用变分原理推导出一种最优权衡效用与信息成本的随机策略。
- 采用类似Softmax的策略,通过最小化自由能实现,支持通过拒绝采样实现高效采样。
- 通过引入熵正则化的贝尔曼递归,将单步决策扩展至序列决策。
- 利用等价变换将有限理性决策树映射为具有修改后价值函数的标准决策树。
- 采用递归拒绝采样,无需穷举搜索即可从最优有限理性策略中生成精确样本。
实验结果
研究问题
- RQ1如何利用信息论原则形式化有限理性,以建模资源约束?
- RQ2自由能泛函如何将经典决策规则(如极小化最大值和期望最大值)作为极限情况统一起来?
- RQ3模型不确定性与证据不足是否能通过决策中的熵正则化自然捕捉?
- RQ4在有限理性下,如何实现无需穷举搜索的精确且可扩展的规划?
- RQ5在有限理性框架中,对自己预测能力的信任以及对其他智能体意图的信任如何产生?
主要发现
- 最优有限理性策略是一种平衡效用与信息成本的随机选择策略,由最小化自由能泛函导出。
- 自由能泛函通过拒绝采样实现精确的蒙特卡洛采样,无需穷举搜索。
- 当信息成本参数趋近于零或无穷大时,经典决策规则(如极小化最大值和期望最大值)成为极限情况。
- 通过熵正则化自然捕捉模型不确定性,该正则化使价值估计偏向效用的高阶矩。
- 通过引入信息约束的贝尔曼递归,该框架可推广至序列决策,生成有限理性决策树。
- 通过调节信息成本参数,该理论为信任敏感与风险敏感规划提供统一框架。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。