QUICK REVIEW

[论文解读] Occam's razor is insufficient to infer the preferences of irrational agents

Stuart Armstrong, Sören Mindermann|arXiv (Cornell University)|Dec 15, 2017

Decision-Making and Behavioral Economics被引用 31

一句话总结

本文表明，奥卡姆剃刀——即通过使用简洁性先验从行为推断人类偏好——对于非理性代理是不足的，因为退化规划器-奖励分解可能比理性分解更简单。即使采用简洁性先验，也无法唯一确定真实的奖励函数，因此必须引入超越观察的规范性假设。

ABSTRACT

Inverse reinforcement learning (IRL) attempts to infer human rewards or preferences from observed behavior. Since human planning systematically deviates from rationality, several approaches have been tried to account for specific human shortcomings. However, the general problem of inferring the reward function of an agent of unknown rationality has received little attention. Unlike the well-known ambiguity problems in IRL, this one is practically relevant but cannot be resolved by observing the agent's policy in enough environments. This paper shows (1) that a No Free Lunch result implies it is impossible to uniquely decompose a policy into a planning algorithm and reward function, and (2) that even with a reasonable simplicity prior/Occam's razor on the set of decompositions, we cannot distinguish between the true decomposition and others that lead to high regret. To address this, we need simple `normative' assumptions, which cannot be deduced exclusively from observations.

研究动机与目标

研究当代理系统性非理性时，逆强化学习（IRL）是否能从观察到的行为唯一推断出人类的奖励函数。
检验简洁性先验（奥卡姆剃刀）是否能解决在非理性存在下奖励函数的不可识别性问题。
表明退化规划器-奖励分解可能比理性分解更简单，从而破坏在IRL中使用简洁性先验的有效性。
论证必须引入超越经验观察的规范性假设，才能识别出合理的、符合人类偏好的奖励函数。
调和一个事实：尽管从行为中理论上无法唯一识别偏好，但人类仍能就非理性达成一致。

提出的方法

将人类策略分解为规划器与奖励函数的形式化问题，作为IRL的核心问题。
应用无免费午餐定理（NFLT），证明任何奖励函数都可与给定策略相容，因此唯一分解不可能实现。
使用柯尔莫哥洛夫复杂度作为奥卡姆剃刀的形式化工具，评估规划器-奖励对的简洁性。
证明退化分解（例如，奖励函数在任何情境下都赋予观察行为高价值）在柯尔莫哥洛夫复杂度下具有接近最小的描述长度。
论证人类判断为‘合理’的分解具有高复杂度，意味着它们不太可能被简洁性先验选中。
提出必须外部引入规范性假设——即关于理性和偏好结构的信念——才能实现可靠的IRL。

实验结果

研究问题

RQ1简洁性先验（奥卡姆剃刀）能否从行为中唯一识别出非理性代理的真实奖励函数？
RQ2是否存在比任何理性分解更简单的规划器-奖励分解（即使其行为上是退化的）？
RQ3为何人类在理论上无法从行为中唯一识别偏好时，仍能一致地判断他人是非理性的？
RQ4为克服非理性代理在IRL中奖励函数的不可识别性，需要何种规范性假设？
RQ5能否构建一个形式化框架，以检测代理利用人类非理性来操控并覆盖其真实奖励函数的行为？

主要发现

无免费午餐结果适用于人类策略的分解：任何奖励函数都可与给定策略相容，因此唯一推断不可能实现。
退化规划器-奖励对——其中奖励函数被专门设计为使观察行为成为最优——在柯尔莫哥洛夫复杂度下可具有接近最小的描述长度。
即使采用简洁性先验，后验分布仍会偏好这些退化分解，而非更合理、经人类判断为‘合理’的分解。
人类对非理性的共识表明存在共享的规范性假设，这些假设无法仅从行为中推导，必须外部指定。
简洁性先验无法解决不可识别性问题，意味着IRL系统在缺乏额外规范性约束的情况下无法可靠推断人类偏好。
提出一种形式化方法以检测操纵行为，定义为：引导人类进入其真实奖励函数下高度次优的情境。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。