[论文解读] How Many Random Seeds? Statistical Power Analysis in Deep Reinforcement Learning Experiments
本文分析随机种子如何影响深度强化学习实验中的统计误差,并提供使用 t 检验和自助置信区间来选择种子数量的指南,以及对假设的实证评估。
Consistently checking the statistical significance of experimental results is one of the mandatory methodological steps to address the so-called "reproducibility crisis" in deep reinforcement learning. In this tutorial paper, we explain how the number of random seeds relates to the probabilities of statistical errors. For both the t-test and the bootstrap confidence interval test, we recall theoretical guidelines to determine the number of random seeds one should use to provide a statistically significant comparison of the performance of two algorithms. Finally, we discuss the influence of deviations from the assumptions usually made by statistical tests. We show that they can lead to inaccurate evaluations of statistical errors and provide guidelines to counter these negative effects. We make our code available to perform the tests.
研究动机与目标
- 解释随机种子如何影响深度 RL 实验比较中的 I 型和 II 型错误。
- 提供实用指南以确定检测有意义性能差异所需的种子数量。
- 比较 Welch’s t 检验和自助置信区间在 RL 场景中的差异检验。
- 讨论检验假设的偏离及其如何影响误差率,并给出实证评估和缓解策略。
提出的方法
- 将 RL 算法的性能建模为随机变量,并通过 X1、X2 和 Xdiff 研究差异。
- 提出两种统计检验:用于不等方差的 Welch’s t 检验,以及用于差异检验的自助置信区间。
- 描述在给定显著性水平 alpha 和期望效应大小 epsilon 的情况下,如何计算样本量 N 以控制 II 型错误 beta。
- 就对假设偏离的易感性以及对 I 型错误的实证估计提供指导。
- 提供逐步流程,用于前期研究、选择 N,以及用真实 RL 数据运行检验。
实验结果
研究问题
- RQ1在给定显著性水平下,需要多少随机种子才能可靠检测出两种 RL 算法的差异?
- RQ2t 检验和自助置信区间在检测 RL 算法性能差异方面的表现如何比较?
- RQ3统计假设偏离如何影响基于种子的 RL 测试中的误差率?
- RQ4研究者可以遵循什么实际工作流程来规划种子数量并验证结果?
主要发现
- Welch 的 t 检验和自助置信区间可以检测差异,但样本量较小时可能产生 I 型错误或根据方法不同而低估错误。
- 给定效应大小和 alpha 时,应增加样本量 N 以降低 II 型错误 beta。
- 自助置信区间在样本量较小时(<10)因为经验分布问题可能不可靠,而在数据非正态时,Welch 的 t 检验可能低估或高估误差率。
- 先导研究提供 s1 和 s2 的估计值,以把 beta 作为 N 和 epsilon 的函数来计算。
- 实证评估表明,来自小型前期研究的标准差低估可能使所需 N 向上或向下偏移。
- 作者提供代码并强调在不检查假设的情况下不要盲目信赖统计检验。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。