[论文解读] K-Myriad: Jump-starting reinforcement learning with unsupervised parallel agents
K-Myriad 在大量专门化的无监督探索策略集合上并行训练,以最大化集合状态熵,提供多样、鲁棒的下游RL初始化。随后从集合中筛选出表现最佳的策略用于下游RL的初始化。
Parallelization in Reinforcement Learning is typically employed to speed up the training of a single policy, where multiple workers collect experience from an identical sampling distribution. This common design limits the potential of parallelization by neglecting the advantages of diverse exploration strategies. We propose K-Myriad, a scalable and unsupervised method that maximizes the collective state entropy induced by a population of parallel policies. By cultivating a portfolio of specialized exploration strategies, K-Myriad provides a robust initialization for Reinforcement Learning, leading to both higher training efficiency and the discovery of heterogeneous solutions. Experiments on high-dimensional continuous control tasks, with large-scale parallelization, demonstrate that K-Myriad can learn a broad set of distinct policies, highlighting its effectiveness for collective exploration and paving the way towards novel parallelization strategies.
研究动机与目标
- 通过大规模并行化、利用多样化探索策略来提高RL中的探索效率。
- 在大量环境副本上定义并优化并行状态熵目标。
- 开发可扩展的策略架构和基于梯度的方法,以最大化集合状态熵。
- 证明经过预训练的多样化策略集合可以提高下游任务的样本效率和性能。
提出的方法
- 在单一网络中使用共享干线(trunk)和多个独立头部(heads)来表示大量并行策略库。
- 使用最近邻熵估计器直接估计并行状态访问分布的熵,而无需显式密度估计。
- 最大化对并行状态熵的梯度相对于所有策略头部和干线参数的梯度。
- 将每个并行进程分配给一个策略头部,从而在基于GPU的仿真器中实现可扩展的大规模并行回放。
- 允许多进程共享同一个头部以提高参数效率,同时在头部之间保持专业化。

实验结果
研究问题
- RQ1在数百到数千个并行策略中最大化集合状态访问熵,能否在高维连续领域产生多样、专业化的探索行为?
- RQ2在用作下游RL算法初始化时,一组多样且以熵驱动的预训练策略集合是否能提升样本效率和性能?
- RQ3如何设计可扩展的架构与损失函数,使得在最小内存开销下能训练数百个并行策略?
- RQ4以多样化策略集进行预训练,在复杂任务中对于单智能体最大熵预训练的优势有多大?
主要发现
| Environment | 10 代理 | 50 代理 |
|---|---|---|
| Empty | 0.9869±0.0160 | 1.3337±0.0099 |
| Maze | 0.5980±0.0267 | 1.0230±0.0164 |
| Pyramid | 0.5340±0.0333 | 0.8807±0.0288 |
| Cave | 0.8804±0.0399 | 1.0432±0.0153 |
- K-Myriad 能在共享干线和独立头部的结构下,预训练多达 50 个(并在实验中实现了多达 1000 个仿真蚂蚁)并行策略。
- 与在同等预算下的单智能体基线相比,并行策略集合在具有挑战性的环境(迷宫型和不平整地形)中具有更高的多样性和更广的状态空间覆盖。
- 以多样化的并行策略进行预训练,在用 PPO 进行下游步态任务初始化时能加速后续学习,在若干设置中优于随机初始化和单智能体最大熵预训练。
- 实证结果表明,增加并行代理数量能提升多样性和覆盖范围,并出现不同的策略行为(通过KL散度分析证据)。
- 在高保真仿真(Isaac Sim Ants)中,增加并行性提升探索效率,并为下游任务带来更丰富的初始初始化。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。