QUICK REVIEW

[论文解读] The Ecosystem Path to General AI

Claes Strannegård, Niklas Engsner|arXiv (Cornell University)|Aug 17, 2021

Evolutionary Game Theory and Cooperation被引用 2

一句话总结

该论文提出 Ecotwin，一个基于 Unity 的开源生态系统模拟器，通过三重神经网络架构（反射、基于幸福的奖励信号、强化学习（RL）训练的策略）模拟动物认知。该系统在无硬编码规则的情况下，展现出自然涌现行为——如洛特卡-沃尔泰拉种群动态、海洋生物的昼夜垂直迁移，以及致命避让反射的进化优势——表明生态系统模拟器可作为通过协同进化压力实现通用智能发展的可扩展‘AI训练场’。

ABSTRACT

We start by discussing the link between ecosystem simulators and general AI. Then we present the open-source ecosystem simulator Ecotwin, which is based on the game engine Unity and operates on ecosystems containing inanimate objects like mountains and lakes, as well as organisms such as animals and plants. Animal cognition is modeled by integrating three separate networks: (i) a reflex network for hard-wired reflexes; (ii) a happiness network that maps sensory data such as oxygen, water, energy, and smells, to a scalar happiness value; and (iii) a policy network for selecting actions. The policy network is trained with reinforcement learning (RL), where the reward signal is defined as the happiness difference from one time step to the next. All organisms are capable of either sexual or asexual reproduction, and they die if they run out of critical resources. We report results from three studies with Ecotwin, in which natural phenomena emerge in the models without being hardwired. First, we study a terrestrial ecosystem with wolves, deer, and grass, in which a Lotka-Volterra style population dynamics emerges. Second, we study a marine ecosystem with phytoplankton, copepods, and krill, in which a diel vertical migration behavior emerges. Third, we study an ecosystem involving lethal dangers, in which certain agents that combine RL with reflexes outperform pure RL agents.

研究动机与目标

探索生态系统模拟器是否可通过在自然选择下模拟协同进化智能体，作为通用人工智能（AGI）的可扩展训练环境。
研究整合反射、基于幸福的奖励信号与强化学习（RL）如何使模拟生物产生适应性、以生存为导向的行为。
评估在存在致命危险的环境中，混合RL-反射智能体是否优于纯RL智能体。
证明复杂生态现象（如种群周期与昼夜垂直迁移）可在无显式编程的情况下自然涌现。
建立一个开源平台（Ecotwin），用于可重现的、基于生物启发的AGI研究。

提出的方法

Ecotwin 是一个基于 Unity 的模拟器，用于建模包含无生命物体（如山脉、湖泊）和生物体（如动物、植物）的生态系统，其相互作用动态变化。
动物认知通过三个相互连接的神经网络建模：(i) 反射网络用于硬编码反应，(ii) 幸福度网络将感官输入（氧气、能量、水分、气味）映射为标量幸福值，(iii) 通过强化学习（RL）训练的策略网络。
RL策略网络使用幸福值在连续时间步之间的差值作为奖励信号进行训练，从而实现目标导向行为。
生物体通过有性或无性繁殖，其可遗传的基因组编码策略与反射网络，从而实现进化动态。
模拟器支持环境复杂性，包括光照周期、随深度变化的光强，以及化学趋性感应，用于躲避捕食者。
开展了三个不同的生态系统研究：陆地生态系统（狼、鹿、草）、海洋生态系统（浮游植物、桡足类、磷虾）、致命危险环境（山羊、红/黄/绿草）。

实验结果

研究问题

RQ1是否能在具备RL训练智能体与反射机制的模拟生态系统中，重现自然种群动态，如洛特卡-沃尔泰拉周期？
RQ2在无显式编程的情况下，海洋生态系统模型中是否能自然涌现昼夜垂直迁移行为？
RQ3在存在致命风险的环境中，将RL与硬编码反射结合，是否能带来比纯RL智能体更优的生存能力与进化适应度？
RQ4在进化压力下，如对致命食物的回避反射等可遗传反射，其在种群中占据主导地位的程度如何？
RQ5在无硬编码行为规则的情况下，简单、模块化的神经架构是否能自然涌现出复杂且符合生物学规律的行为？

主要发现

在包含狼、鹿与草的陆地生态系统中，自然涌现出洛特卡-沃尔泰拉风格的种群振荡，鹿与狼种群呈现典型的捕食者-猎物周期模式。
在包含桡足类、磷虾与浮游植物的海洋生态系统中，清晰地出现了昼夜垂直迁移（DVM）模式，桡足类在夜间上浮、白天下沉，与真实世界观测结果一致。
在致命危险研究中，编码为避免致命红草的红色基因迅速在山羊种群中占据主导地位，表明提供生存优势的反射在进化中被强烈选择。
对非致命黄色草的回避反射（黄色基因）相比无反射的蓝色基因未表现出进化优势，表明非致命风险不会使基于反射的策略优于纯RL策略。
携带绿色基因（避免优质绿草）的山羊灭绝后又因基因突变重新出现，说明突变在维持遗传多样性方面起关键作用，即使在强大选择压力下亦然。
在致命环境中，RL与反射的结合策略优于纯RL智能体，证实当风险不可逆时，反射机制对生存至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。