QUICK REVIEW

[论文解读] A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms

Cédric Colas, Olivier Sigaud|arXiv (Cornell University)|Apr 15, 2019

Reinforcement Learning in Robotics参考文献 10被引用 24

一句话总结

本文提出了一套严格的统计框架，用于比较强化学习（RL）算法，主张使用调整显著性水平的Welch's t检验，以确保第一类错误率的正确控制。通过模拟和真实世界RL实验（SAC与TD3在Half-Cheetah上的对比），本文表明，使用不当的检验方法会导致假阳性率被高估。研究提供了实用的指导原则和代码，基于预期效应大小选择合适的样本量，以实现充分的统计功效。

ABSTRACT

Consistently checking the statistical significance of experimental results is the first mandatory step towards reproducible science. This paper presents a hitchhiker's guide to rigorous comparisons of reinforcement learning algorithms. After introducing the concepts of statistical testing, we review the relevant statistical tests and compare them empirically in terms of false positive rate and statistical power as a function of the sample size (number of seeds) and effect size. We further investigate the robustness of these tests to violations of the most common hypotheses (normal distributions, same distributions, equal variances). Beside simulations, we compare empirical distributions obtained by running Soft-Actor Critic and Twin-Delayed Deep Deterministic Policy Gradient on Half-Cheetah. We conclude by providing guidelines and code to perform rigorous comparisons of RL algorithm performances.

研究动机与目标

通过提供一种基于原则的统计框架，解决RL中的可复现性危机，以比较算法性能。
评估常见统计检验（t检验、Mann-Whitney检验、自助法、置换检验、秩次t检验）在不同条件下的假阳性率和统计功效。
基于预期效应大小，提供实用且基于实证的样本量（随机种子数量）推荐。
警告避免使用在小样本量下不可靠的检验方法，如自助法和置换检验。
倡导使用调整显著性水平的Welch's t检验，以确保实际假阳性率低于名义显著性水平。

提出的方法

作者在各种条件下（正态分布、偏态分布、异方差）模拟性能分布，以评估统计检验的第一类错误率和统计功效。
比较五种统计检验：Student's t检验、Welch's t检验、Mann-Whitney U检验、自助法检验和置换检验。
利用在Half-Cheetah环境中运行SAC和TD3所获得的实际数据，验证检验方法在真实RL学习曲线上的表现。
将统计功效和假阳性率计算为样本量（N）和效应大小（ϵ）的函数，其中ϵ定义为标准化均差。
采用显著性水平α < 0.05（例如α = 0.01），以确保当分布偏离正态性时，实际假阳性率α∗仍低于0.05。
提供公开代码库，包含代码和原始结果，以复现所有实验，并指导从业者应用推荐的方法。

实验结果

研究问题

RQ1在RL比较中，面对多样的性能分布形态和样本量，哪种统计检验能保持最低的假阳性率？
RQ2在RL实验中，常见检验的统计功效如何随样本量（随机种子数）和效应大小而变化？
RQ3违反正态性、方差齐性及分布相同性假设在多大程度上影响RL评估中统计检验的可靠性？
RQ4为检测给定相对效应大小，实现80%统计功效所需的最小随机种子数是多少？
RQ5多重比较（如成对算法比较）如何影响家庭错误率（family-wise error rate），哪些校正方法有效？

主要发现

Welch's t检验在不等方差和非正态分布下，始终表现出更低的假阳性率，且统计功效与其他检验相当。
当N < 50时，自助法检验不可靠，常导致假阳性率被高估，因此在小样本RL评估中应避免使用。
Mann-Whitney U检验和秩次t检验仅在仔细检查分布假设时才可靠；否则，可能面临高第一类错误率。
当N < 10时，置换检验不稳定，导致假阳性率过高，因此不推荐在RL实验的小样本量中使用。
对于相对效应大小ϵ = 0.5，约需100个种子才能实现80%的统计功效；对于ϵ = 1，约20个种子足够；对于ϵ = 2，5–10个种子已足够。
SAC与TD3在Half-Cheetah上的真实世界比较中，均值比较（ϵ = 0.93）需要N = 10–15个种子，中位数比较（ϵ = 0.80）则需额外约5个种子，证实了基于效应大小规划样本量的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。