QUICK REVIEW

[论文解读] Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research

Joel Z. Leibo, Edward Hughes|arXiv (Cornell University)|Mar 2, 2019

Evolutionary Algorithms and Applications参考文献 81被引用 65

一句话总结

本文提出自进课程（autocurricula）源自社会互动，作为持续创新的驱动因素，，将外源性与内源性挑战分类，并主张用多智能体视角来看待智能与进化。

ABSTRACT

Evolution has produced a multi-scale mosaic of interacting adaptive units. Innovations arise when perturbations push parts of the system away from stable equilibria into new regimes where previously well-adapted solutions no longer work. Here we explore the hypothesis that multi-agent systems sometimes display intrinsic dynamics arising from competition and cooperation that provide a naturally emergent curriculum, which we term an autocurriculum. The solution of one social task often begets new social tasks, continually generating novel challenges, and thereby promoting innovation. Under certain conditions these challenges may become increasingly complex over time, demanding that agents accumulate ever more innovations.

研究动机与目标

定义 autocurriculum 及其在跨越自适应单元层级的创新驱动中的作用。
解释非平稳的社会互动如何创造自我产生的学习挑战（外源性与内源性）。
按竞争与合作对 autocurricula 进行分类，并讨论对 AI 研究与进化的影响。
主张累积性文化进化与人类独特性源于由社会记忆与制度所驱动的反馈回路。

提出的方法

引入 autocurriculum 概念并形式化定义（自适应单元、实现策略、挑战）。
区分内源性与外源性挑战，并将其与竞争与合作动力学联系起来。
综述并综合强化学习、经验博弈理论与自对弈中的机制，以说明 autocurriculum 的产生（例如 TD-Gammon、AlphaGo/Zero 系列）。
讨论进化与组织上的类比（制度、公地资源、社会困境），以展示自进课程如何随时间提升复杂性。
提供一个框架，将自进课程作为研究进化生物学与多智能体强化学习的视角。

实验结果

研究问题

RQ1自进课程是否能够产生足够多样的挑战来解决“问题问题”？
RQ2在社区或更高阶的自适应单元层面，策略与实施之间的二元性是否仍然存在？
RQ3在自进课程背景下，社会困境的无免费午餐性质是否可以形式化？
RQ4自进课程现象是否促成了高阶个体的进化（例如多细胞性、蜂社会性）或多智能体 RL 过渡？
RQ5跨不同层级的挑战如何相互作用，反馈回路是否能在计算机仿真中产生累积文化或自驯化？

主要发现

自进课程源自跨层级的自适应单元之间的相互作用，形成一系列扰动学习景观的自适应挑战。
外源性自进课程源自竞争动力学与自对弈，可能推动围棋、国际象棋及对抗性强化学习环境中的持续创新。
内源性自进课程源自内部的集体动力学与社会制度，塑造合作、惩罚与治理机制。
自对弈和记忆丰富的社会过程可以维持创新，并可能构成人类累积性文化进化的基础，语言与制度的帮助下。
该框架凸显社会困境中的无自由午餐式特性，需借助更高阶的制度来解决持续的集体行动问题并维持自进课程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。