Skip to main content
QUICK REVIEW

[論文レビュー] How Many Random Seeds? Statistical Power Analysis in Deep Reinforcement Learning Experiments

Cédric Colas, Olivier Sigaud|arXiv (Cornell University)|Jun 21, 2018
Reinforcement Learning in Robotics参考文献 10被引用数 59
ひとこと要約

本論文は、ランダムシードが深層強化学習実験の統計的誤差にどう影響するかを分析し、t検定とブートストラップ信頼区間を用いた種数の選択指針を提供し、前提条件の実証評価を行う。

ABSTRACT

Consistently checking the statistical significance of experimental results is one of the mandatory methodological steps to address the so-called "reproducibility crisis" in deep reinforcement learning. In this tutorial paper, we explain how the number of random seeds relates to the probabilities of statistical errors. For both the t-test and the bootstrap confidence interval test, we recall theoretical guidelines to determine the number of random seeds one should use to provide a statistically significant comparison of the performance of two algorithms. Finally, we discuss the influence of deviations from the assumptions usually made by statistical tests. We show that they can lead to inaccurate evaluations of statistical errors and provide guidelines to counter these negative effects. We make our code available to perform the tests.

研究の動機と目的

  • ランダムシードが深層強化学習実験の比較におけるI種誤りとII種誤りにどのように影響するかを説明する。
  • 有意義な性能差を検出するために必要なシード数を決定するための実用的な指針を提供する。
  • RL設定における差の検定のためのWelchのt検定とブートストラップ信頼区間を比較する。
  • 検定の前提条件からの逸脱が誤差率にどう影響するかを議論し、経験的評価と緩和戦略を提示する。

提案手法

  • 方法
  • RLアルゴリズムの性能を確率変数としてモデル化し、差をX1、X2、Xdiffで検討する。
  • Welchの不等分散のt検定と差の検定のためのブートストラップ信頼区間という2つの統計検定を提案する。
  • 有意性αと望ましい効果量εを与えたときのβ(II種誤差)を制御するためのサンプルサイズNの計算方法を説明する。
  • 前提条件の逸脱に対する感度と、誤差率の経験的推定についての指針を提供する。
  • 実データのRLを用いてパイロット研究を実施し、Nを選択し検定を実行する手順を段階的に示す。

実験結果

リサーチクエスチョン

  • RQ1特定の有意水準で、2つのRLアルゴリズムの差を信頼性高く検出するには、いくつのランダムシードが必要ですか?
  • RQ2RLアルゴリズムの性能差を検出する際、t検定とブートストラップ信頼区間はどのように比較されますか?
  • RQ3統計的前提条件からの逸脱は、RLのシードベースの検定における誤差率にどのように影響しますか?
  • RQ4研究者がシード数を計画し結果を検証するために従える実践的な作業フローは何ですか?

主な発見

  • Welchのt検定とブートストラップCIは差を検出できますが、小さいサンプルでは方法によって第一種誤差を生じることもあり、過小評価されることもあります。
  • 効果量とαが与えられた場合、タイプIIエラーβを減らすためにサンプルサイズNを増やすべきです。
  • 小さいサンプル(<10)では経験的分布の問題によりブートストラップCIが信頼性を欠く可能性があり、Welchのt検定は非正規データ下で誤差率を過小評価または過大評価することがあります。
  • パイロット研究はβをNとεの関数として計算するためのs1とs2の推定を提供します。
  • 経験的評価は、小規模パイロットからの標準偏差の過小評価が、必要なNを上昇または下降させるバイアスを生むことを示しています。
  • 著者はコードを提供し、前提条件を検証せずに統計検定を盲信しないことの重要性を強調しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。