QUICK REVIEW

[논문 리뷰] How Many Random Seeds? Statistical Power Analysis in Deep Reinforcement Learning Experiments

Cédric Colas, Olivier Sigaud|arXiv (Cornell University)|2018. 06. 21.

Reinforcement Learning in Robotics참고 문헌 10인용 수 59

한 줄 요약

이 논문은 임의 시드가 심층 강화 학습 실험의 통계적 오류에 어떤 영향을 미치는지 분석하고 t-테스트 및 부트스트랩 신뢰구간을 사용해 시드 수를 선택하는 지침을 제공합니다. 또한 가정의 경험적 평가를 포함합니다.

ABSTRACT

Consistently checking the statistical significance of experimental results is one of the mandatory methodological steps to address the so-called "reproducibility crisis" in deep reinforcement learning. In this tutorial paper, we explain how the number of random seeds relates to the probabilities of statistical errors. For both the t-test and the bootstrap confidence interval test, we recall theoretical guidelines to determine the number of random seeds one should use to provide a statistically significant comparison of the performance of two algorithms. Finally, we discuss the influence of deviations from the assumptions usually made by statistical tests. We show that they can lead to inaccurate evaluations of statistical errors and provide guidelines to counter these negative effects. We make our code available to perform the tests.

연구 동기 및 목표

random seeds가 심층 RL 실험 비교에서 제1종 오류(type-I)와 제2종 오류(type-II)에 어떤 영향을 미치는지 설명한다.
의미 있는 성능 차이를 탐지하기 위해 필요한 시드 수를 결정하기 위한 실용적인 지침을 제시한다.
RL 설정에서 차이 검정에 대한 Welch의 t-검정과 차이 검정을 위한 부트스트랩 신뢰구간을 비교한다.
가정에서 벗어난 테스트의 편차와 그것이 오차율에 미치는 영향을 경험적 평가 및 완화 전략과 함께 논의한다.
메서드
연구 질문들
주요 발견들
표 머리말
표 행들

제안 방법

RL 알고리즘의 성능을 난수 변수로 모델링하고 X1, X2, Xdiff를 통해 차이를 연구한다.
두 가지 통계 검정을 제안한다: 분산이 다른 경우의 Welch의 t-검정과 차이 검정을 위한 부트스트랩 신뢰구간.
유의수준 alpha와 원하는 효과 크기 epsilon를 고려하여 제2종 오류 beta를 제어하기 위한 표본 크기 N 계산 방법을 설명한다.
가정 편차에 대한 민감성과 제1종 오류의 경험적 추정을 위한 지침을 제공한다.
파일럿 연구를 설계하고 N을 선택하며 실제 RL 데이터로 검정을 실행하는 단계별 절차를 제공한다.

실험 결과

연구 질문

RQ1주어진 유의수준에서 두 RL 알고리즘 간의 차이를 신뢰성 있게 탐지하기 위해 필요한 임의 시드의 수는 얼마입니까?
RQ2RL 알고리즘 성능의 차이를 탐지하는 데 있어 t-검정과 부트스트랩 CI는 어떻게 비교됩니까?
RQ3통계적 가정의 편차가 RL 시드 기반 검정의 오차율에 어떻게 영향을 줍니까?
RQ4연구자가 시드 수를 계획하고 결과를 검증하기 위해 따를 수 있는 실용적인 워크플로우는 무엇입니까?

주요 결과

Welch의 t-검정과 부트스트랩 CI는 차이를 탐지할 수 있지만 샘플이 작으면 방법에 따라 제1종 오류가 발생하거나 과소추정될 수 있습니다.
주어진 효과 크기와 알파에서 제2종 오류 beta를 줄이기 위해 표본 크기 N을 늘려야 한다.
부트스트랩 CI는 샘플이 작으면(10 미만) 경험적 분포 문제로 신뢰도가 낮을 수 있으며, 비정규 분포 데이터에서는 Welch의 t-검정이 오차율을 과대 또는 과소 추정할 수 있습니다.
파일럿 연구는 N과 epsilon의 함수로 beta를 계산하기 위한 s1과 s2 추정치를 제공합니다.
경험적 평가에서 작은 파일럿으로 표준편차를 과소추정하면 필요한 N이 상승 또는 하향 편향될 수 있음을 보여줍니다.
저자들은 코드 제공과 가정을 확인하지 않고 통계 검정을 맹목적으로 신뢰하지 말 것을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.