QUICK REVIEW

[论文解读] Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control

Riashat Islam, Peter Henderson|arXiv (Cornell University)|Aug 10, 2017

Reinforcement Learning in Robotics参考文献 12被引用 185

一句话总结

本文研究超参数调优、环境随机性和随机种子如何影响 DDPG 与 TRPO 在 Hopper-v1 和 Half-Cheetah-v1 上的可重复性，并提供公平基线与报告的指导原则。

ABSTRACT

Policy gradient methods in reinforcement learning have become increasingly prevalent for state-of-the-art performance in continuous control tasks. Novel methods typically benchmark against a few key algorithms such as deep deterministic policy gradients and trust region policy optimization. As such, it is important to present and use consistent baselines experiments. However, this can be difficult due to general variance in the algorithms, hyper-parameter tuning, and environment stochasticity. We investigate and discuss: the significance of hyper-parameters in policy gradients for continuous control, general variance in the algorithms, and reproducibility of reported results. We provide guidelines on reporting novel results as comparisons against baseline methods such that future researchers can make informed decisions when investigating novel methods.

研究动机与目标

评估连续控制中策略梯度方法的方差来源。
评估在 Hopper 与 Half-Cheetah 上 TRPO 和 DDPG 对超参数的敏感性。
量化超参数和随机种子如何影响结果的可重复性。
提出在连续控制 RL 中报告基线和实验程序的指南。

提出的方法

以 MuJoCo/OpenAI Gym 环境 Hopper-v1 和 Half-Cheetah-v1 作为测试基准。
使用前人工作的实现复现 TRPO 和 DDPG。
改变超参数，如策略网络架构、批量大小、步长、正则化、GAE 的 lambda、奖励尺度和学习率。
运行 5000 次迭代，使用 5 个随机种子，并通过多次试验分析结果。
通过比较不同种子和配置的结果来评估方差。
与先前基线进行比较并报告多项指标，包括平均回报和标准差。
通过重复试验研究环境随机性对可重复性的影响。

实验结果

研究问题

RQ1超参数如何影响 TRPO 和 DDPG 在 Hopper 和 Half-Cheetah 上的性能与可重复性？
RQ2随机种子和环境随机性在报告结果的变异中起到什么作用？
RQ3为连续控制 RL 方法实现公平基线，需要哪些报告指标和实验协议？
RQ4在仔细调优和跨试验的充分平均下，不同论文的基线结果是否保持一致？

主要发现

超参数和随机性导致 TRPO 和 DDPG 的性能方差很大。
网络架构对 Half-Cheetah 影响显著，对 Hopper 的影响较小；DDPG 在 Hopper 上尤为不稳定。
较大批量的 TRPO 比较小批量在性能提升上更明显；DDPG 对批量大小的变化收益有限。
奖励尺度和 actor/critic 学习率对环境依赖性强，在 Half-Cheetah 和 Hopper 上结果不一致。
即使超参数经过调优，结果在随机种子之间仍有显著差异，强调需要在多次试验中取平均。
许多早期工作只报告部分指标，可能误导基线；建议全面报告所有指标和超参数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。