Skip to main content
QUICK REVIEW

[논문 리뷰] A Statistically Reliable Optimization Framework for Bandit Experiments in Scientific Discovery

Tong Li, Travis Mandel|arXiv (Cornell University)|2026. 03. 11.
Advanced Bandit Algorithms Research인용 수 0
한 줄 요약

이 논문은 적응형 밴디트 샘플링하에서 유효한 가설 검정을 가능하게 하는 일반적인 알고리즘 유도 테스트(AIT) 보정과 보상 대비 통계적 검력의 트레이드오프 프레임워크를 도입하고, 목표 함수와 사용자 정의 비용에 따라 밴디트 파라미터를 선택하는 최적화 프레임워크를 제시합니다.

ABSTRACT

Scientific experimentation is largely driven by statistical hypothesis testing to determine significant differences in interventions. Traditionally, experimenters allocate samples uniformly between each intervention. However, such an approach may lead to suboptimal outcomes - multi-armed bandits (MABs) addresses this problem by allocating samples adaptively to maximize outcomes. Yet, two challenges have hindered the use of MABs in scientific domains. First, common hypothesis tests (e.g., $t$-tests) become invalid under adaptive sampling without correction, leading to inflated type~I and type~II errors. This is an understudied problem, and prior solutions suffer from issues such as low statistical power which prevent adoption in many practical settings. Second, practitioners must explicitly balance cumulative reward with statistical efficiency, yet no general methodology exists to quantify this trade-off across algorithms. In this paper, we study assumption modification and critical region correction approaches for hypothesis testing that enable common tests to be applied to adaptively collected data. We provide heuristic justification for its power efficiency and show in simulation that it achieves higher power than existing approaches. Further, we derive a theoretically and practically motivated objective function for adaptive experiment evaluation, which we integrate into a unified experimental framework. Our framework asks experimenters to specify an experiment extension cost for their problem, and based on that enables our proposed optimization procedure to select the bandit algorithm that best balances reward and power in their setting. We show that our approach enables practitioners to improve outcomes with only slightly more steps than uniform randomization, while retaining statistical validity.

연구 동기 및 목표

  • 적응형(밴딧) 샘플링의 사용을 통해 실험 결과를 개선하면서도 유효한 통계적 추론을 유지하고자 하는 동기를 제공한다.
  • 모든 밴딧 알고리즘과 일반적인 테스트에 대해 유효한 1형 오류 제어를 산출하는 일반적인 테스트 보정 접근법을 제공한다.
  • 사용자 정의한 수평선/비용 하에서 보상과 통계적 파워의 균형을 맞추는 목표 함수를 소개한다.
  • 비용과 파워 제약을 고려하여 밴디트 알고리즘과 실험 길이를 추천하는 최적화 프레임워크를 개발한다.
  • 공통 밴디트 알고리즘과 가설 검정에 걸친 시뮬레이션을 통해 제안된 방법을 평가한다.

제안 방법

  • 동일한 적응 알고리즘으로 데이터 수집을 시뮬레이션하고 테스트 통계량에 대한 무귀환 분포를 추정하여 null 분포를 구성하는 알고리즘 유도 테스트(AIT) 보정을 제안한다.
  • 단순 가설의 경우 적응 데이터 수집 하에서 AIT 보정이 있는 LRT 검정이 가장 강력한 검정임을 보인다.
  • 실험 확장 비용 매개변수 w를 정의하고 도출된 목표 함수 F(T,R,w)=R/T - w*log(T)로 보상과 수평선을 정량화한다.
  • 선택된 목표와 그 바람직한 특성(단조성, 스케일/시프트 일관성)을 정당화하기 위한 PDE 기반 등가값 조건을 형식화한다.
  • 주어진 파워 제약 하에서 제안된 목표를 최대화하도록 밴딧 알고리즘 파라미터와 수평선을 선택하는 최적화 절차를 개발한다.
Figure 1 . Screenshot of our optimization framework web application, showing the relative ECP-reward performance for the empirical study inspired simulation. Note the best setting for $\epsilon$ -TS outperforms TS and UR near the $w=0.01$ .
Figure 1 . Screenshot of our optimization framework web application, showing the relative ECP-reward performance for the empirical study inspired simulation. Note the best setting for $\epsilon$ -TS outperforms TS and UR near the $w=0.01$ .

실험 결과

연구 질문

  • RQ1적응 밴디트 데이터 수집하에서 임의의 알고리즘과 테스트에 대해 가설 검정을 유효하게 보정하는 방법은 무엇인가?
  • RQ2적응 실험에서 누적 보상과 통계적 파워 간의 트레이드오프를 어떻게 정량화하고 최적화할 수 있는가?
  • RQ3실험을 연장하는 비용을 고려할 때 보상과 수평선을 가장 잘 균형 맞추는 알고리즘적 프레임워크는 무엇인가?
  • RQ4제안된 보정이 일반적인 방법(예: ART)과 비교하여 파워 및 FPR에 대해 어떤 차이가 있는가?
  • RQ5실제 과학적 설정에서 밴딧 파라미터 및 실험 길이 선택에 대한 실용적 지침을 프레임워크가 제공할 수 있는가?

주요 결과

  • AIT 보정은 여러 알고리즘(TS, ε-greedy, UCB)에서 기존 접근법(예: ART)보다 파워가 높고 경험적 FPR이 목표값(≈0.05) 근처를 유지한다.
  • 단순 가설 설정에서 AIT 보정이 있는 LRT는 적응 데이터 수집 하에서 검정에 최적이다.
  • 제안된 ECP-보상 목표 F(T,R,w)=R/T - w*log(T)는 평균 보상과 실험 확장의 비용 간의 트레이드오드를 암호화하며 유용한 단조성과 스케일-시프트 특성을 가진다.
  • 프레임워크는 주어진 w에 대해 보상과 통계적 효율성을 균형 있게 맞추기 위한 밴딧 파라미터와 수평선을 추천하는 최적화 도구를 제공한다.
  • 시뮬레이션 연구는 이 접근법이 일반적인 균등 무작위화에 비해 실행 단계에 큰 증가 없이도 유효한 추론과 실용적 성능 향상을 보임을 시사한다.
  • 이 방법론은 일반적인 밴딧 알고리즘(TS, ε-TS, UCB)과 표준 검정(t-검정, ANOVA, Tukey의 검정)을 사용하여 시연되었다.
Figure 2 . Screenshot of our optimization framework web application user input page.
Figure 2 . Screenshot of our optimization framework web application user input page.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.