[论文解读] Structured Evolution with Compact Architectures for Scalable Policy Optimization
本文提出了具有正交/ Hadamard 基于探索的结构化进化策略和紧凑策略架构,使得可扩展的非导数策略优化成为可能,在 OpenAI Gym 任务上实现了非常小的网络(≈300 参数)并具有快速推理。
We present a new method of blackbox optimization via gradient approximation with the use of structured random orthogonal matrices, providing more accurate estimators than baselines and with provable theoretical guarantees. We show that this algorithm can be successfully applied to learn better quality compact policies than those using standard gradient estimation techniques. The compact policies we learn have several advantages over unstructured ones, including faster training algorithms and faster inference. These benefits are important when the policy is deployed on real hardware with limited resources. Further, compact policies provide more scalable architectures for derivative-free optimization (DFO) in high-dimensional spaces. We show that most robotics tasks from the OpenAI Gym can be solved using neural networks with less than 300 parameters, with almost linear time complexity of the inference phase, with up to 13x fewer parameters relative to the Evolution Strategies (ES) algorithm introduced by Salimans et al. (2017). We do not need heuristics such as fitness shaping to learn good quality policies, resulting in a simple and theoretically motivated training mechanism.
研究动机与目标
- 在随机或黑箱环境中推动派生无关的策略搜索优化。
- 通过使用正交或 Hadamard 基的结构化随机方向来改进梯度估计。
- 通过紧凑架构降低策略参数维度,以实现快速训练和推理。
- 展示可扩展性和对机器人基准测试及 OpenAI Gym 任务的适用性。
提出的方法
- 对目标函数 F 进行高斯平滑以形成 Fσ(θ),并通过蒙特卡洛梯度估计 ∇Fσ(θ)。
- 比较基本的 ES、对偶 ES 和前向有限差分 ES 估计量对 ∇Fσ(θ)。
- 引入结构化探索: (i) 用高斯正交方向进行探索;(ii) 通过 Hadamard-Rademacher 矩阵进行离散正交探索;(iii) 伪蒙特卡罗/准蒙特卡罗探索;并显示与独立同分布的方向相比,这些方法降低均方误差。
- 提出使用 Toeplitz(及相关低位移)矩阵的紧凑策略网络,以共享参数并加速推理。
- 描述用于扩展至大量工作者并保持低通信成本的分布式实现。
- 证明带有结构化策略的紧凑策略在使用远少于参数的情况下,仍能实现具有竞争力或更优的强化学习性能。
实验结果
研究问题
- RQ1与独立同分布的高斯方向相比,带有正交或 Hadamard 基方向的结构化探索是否在派生无关优化中降低梯度估计方差?
- RQ2紧凑策略架构(例如 Toeplitz、低位移矩阵)是否在显著降低参数数量的同时维持或提高策略质量?
- RQ3相比无结构的 ES 方法,结构化探索策略在 OpenAI Gym MuJoCo 任务上的表现如何,在学习速度和最终奖励方面?
- RQ4与标准的派生无关方法相比,分布式结构化 ES 实现的计算与通信成本是多少?
主要发现
- 结构化探索方案的均方误差低于相应的对偶 iid 估计量,从而改善梯度估计。
- 正交和基于 Hadamard 的探索可以显著降低方差并提升相对于 iid 方向的优化性能。
- 使用 Toeplitz 或相关结构的紧凑策略在参数少多达 13 倍的情况下仍可实现相似或更好的性能。
- 大多数 MuJoCo OpenAI Gym 任务可以用参数少于 300 的网络解决,推理时间接近线性。
- 使用分布式训练和大量工作者的结构化梯度估计可以取得有竞争力的结果,减少总计算和通信开销。
- 在若干任务中,结构化策略优于无结构策略,且无结构的全网络很少超过结构化紧凑架构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。