[论文解读] The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
本文认为最弱的假设,而非最短的(最小描述长度 MDL),在正式的主动认知框架下最大化泛化概率。它将“弱”作为代理变量,并在理论和实验中证明,弱性在从子任务到父任务的泛化方面优于描述长度。
If $A$ and $B$ are sets such that $A \subset B$, generalisation may be understood as the inference from $A$ of a hypothesis sufficient to construct $B$. One might infer any number of hypotheses from $A$, yet only some of those may generalise to $B$. How can one know which are likely to generalise? One strategy is to choose the shortest, equating the ability to compress information with the ability to generalise (a proxy for intelligence). We examine this in the context of a mathematical formalism of enactive cognition. We show that compression is neither necessary nor sufficient to maximise performance (measured in terms of the probability of a hypothesis generalising). We formulate a proxy unrelated to length or simplicity, called weakness. We show that if tasks are uniformly distributed, then there is no choice of proxy that performs at least as well as weakness maximisation in all tasks while performing strictly better in at least one. In experiments comparing maximum weakness and minimum description length in the context of binary arithmetic, the former generalised at between $1.1$ and $5$ times the rate of the latter. We argue this demonstrates that weakness is a far better proxy, and explains why Deepmind's Apperception Engine is able to generalise effectively.
研究动机与目标
- 在主动认知中,将泛化作为从子集合到更大集合的推断来进行动力引导。
- 挑战普遍观点:更短的描述(MDL)并非最好的泛化代理。
- 引入并形式化将“弱性”作为最大化泛化概率的智力代理。
- 理论上证明在均匀任务分布下,弱性对于最大化泛化概率既充分又必要(或谓之必要和充分)。
- 在简单的8位字符串任务上提供比较弱性与最小描述长度的实验证据。
提出的方法
- 形式化框架:将环境表示为一组声明性程序,并定义可实现的语言和任务。
- 将泛化定义为在 v-任务格中的子任务向父任务的假设扩展。
- 引入两种智力代理:弱性(扩展 Z_l 的大小)和描述长度(|l|);描述它们的数学作用。
- 证明命题:弱性对最大化泛化概率是充分的(Prop. 1)且必要的(Prop. 2);描述长度既非必要也非充分(Prop. 3)。
- 给出对可实现语言假设的通用先验,并讨论均匀任务分布。
- 在使用 PyTorch/ SymPy 的8位二进制加法/乘法任务上,实验对比弱性与 MDL,测量泛化率和平均泛化程度。
实验结果
研究问题
- RQ1在均匀任务分布下,弱性是否最大化从子任务到父任务的泛化概率?
- RQ2弱性是否是泛化的必要代理,描述长度作为代理是否充要?
- RQ3在简单算术任务上的经验实验是否支持弱性作为优越泛化代理相较于 MDL?
- RQ4这些发现是否能揭示为何某些 AI 系统(如 DeepMind 的 Apperception Engine)具有良好的泛化能力?
- RQ5在实际情境中,任务词汇表的选择如何影响通过弱性进行的归纳?
主要发现
- 弱性是对从子任务到父任务的归纳泛化概率最大化的充分代理。
- 在均匀任务分布下,弱性对于最大化泛化概率是必要的;描述长度则不是必要的。
- 在8位二进制加法和乘法上的实验显示,弱性导致更高的泛化率(为 MDL 的110-500%)和更大的平均泛化程度(103-156%)。
- MDL(最小描述长度)并不最大化泛化,在所有测试的任务配置中都可能被弱性超越。
- 这些结果为像 Apperception Engine 这样的系统中有效泛化提供了解释,偏好弱但有效的假设。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。