QUICK REVIEW

[论文解读] Bad Universal Priors and Notions of Optimality

Jan Leike, Marcus Hütter|arXiv (Cornell University)|Oct 16, 2015

Computability, Logic, AI Algorithms参考文献 15被引用 45

一句话总结

本文表明，AIXI 作为一种理论上最优的强化学习智能体，在某些通用图灵机（UTM）选择下会表现出严重的性能退化，从而破坏其宣称的最优性属性。本文证明，Legg-Hutter 智力与平衡帕累托最优性是主观的，依赖于 UTM 的选择，使得 AIXI 成为一种相对理论，而非智能的普遍标准。

ABSTRACT

A big open question of algorithmic information theory is the choice of the universal Turing machine (UTM). For Kolmogorov complexity and Solomonoff induction we have invariance theorems: the choice of the UTM changes bounds only by a constant. For the universally intelligent agent AIXI (Hutter, 2005) no invariance theorem is known. Our results are entirely negative: we discuss cases in which unlucky or adversarial choices of the UTM cause AIXI to misbehave drastically. We show that Legg-Hutter intelligence and thus balanced Pareto optimality is entirely subjective, and that every policy is Pareto optimal in the class of all computable environments. This undermines all existing optimality properties for AIXI. While it may still serve as a gold standard for AI, our results imply that AIXI is a relative theory, dependent on the choice of the UTM.

研究动机与目标

调查 AIXI 的最优性属性是否独立于通用图灵机（UTM）的选择。
评估关键最优性概念（如平衡帕累托最优性与 Legg-Hutter 智力）在不同 UTM 下的鲁棒性。
通过揭示其对 UTM 选择的依赖性，挑战 AIXI 作为人工通用智能普遍基准的假设。
证明在所有可计算环境的类中，每个策略都是帕累托最优的，从而使标准最优性声明变得空洞。
论证 AIXI 缺乏充分探索，导致由不良先验引发的持续偏差，从而破坏其理论最优性。

提出的方法

通过特定 UTM 构造两种病态的通用先验：无动性先验与教条性先验，以诱导极端的智能体行为。
在有限时域设置下分析 AIXI 在无动性先验下的行为，表明所有动作变得同等最优。
在教条性先验下分析 AIXI 的行为，表明其无论奖励衰减如何都严格坚持某一固定策略。
证明 Legg-Hutter 智力并非在 UTM 选择下保持不变，AIXI 的得分可因 UTM 不同而任意接近最小值或最大值。
证明在所有可计算环境的完整类中，每个可计算策略都是帕累托最优的，使帕累托最优性变得微不足道。
利用算法信息论中的不变性定理，将 AIXI 缺乏此类不变性与柯尔莫哥洛夫复杂度及 Solomonoff 归纳法进行对比。

实验结果

研究问题

RQ1AIXI 的最优性属性是否能在所有通用图灵机选择下保持不变？
RQ2Legg-Hutter 智力是否是一种稳健的、客观的智能度量，还是依赖于 UTM 的选择？
RQ3是否存在会导致 AIXI 显著失常的通用先验，即使在有限时域设置下亦然？
RQ4当 UTM 被敌对选择时，平衡帕累托最优性是否仍是 AIXI 的有意义最优性标准？
RQ5在所有可计算环境的类中，每个可计算策略是否都可被视为帕累托最优，从而使该概念变得微不足道？

主要发现

对于有限时域的 AIXI，可构造一种无动性先验，使得所有动作同等可取，导致完全的犹豫不决。
对于任意可计算策略 π，可构造一种教条性先验，使得 AIXI 在预期奖励未降至接近零之前始终坚持 π。
Legg-Hutter 智力并非在 UTM 选择下保持不变：AIXI 的得分可因 UTM 不同而任意接近最小值或最大值。
平衡帕累托最优性具有主观性：AIXI 并非对所有通用先验都满足平衡帕累托最优性。
在所有可计算环境的类中，每个可计算策略都是帕累托最优的，使该概念变得微不足道，从而破坏了先前关于 AIXI 优越性的主张。
AIXI 不存在不变性定理，与柯尔莫哥洛夫复杂度或 Solomonoff 归纳法不同，使 AIXI 成为依赖于 UTM 选择的相对理论。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。