Skip to main content
QUICK REVIEW

[논문 리뷰] An Actor-Critic Contextual Bandit Algorithm for Personalized Mobile Health Interventions

Huitian Lei, Lu, Yangyi|arXiv (Cornell University)|2017. 06. 28.
Advanced Bandit Algorithms Research참고 문헌 20인용 수 44
한 줄 요약

이 논문은 개인화된 실시간 모바일 헬스 간병 조치(JITAIs)를 학습하기 위해 정책 학습(에이전트)과 보상 모델링(비평가)을 분리함으로써 온라인 액터-크리틱 컨텍스트 기반 밴딧 알고리즘을 제안한다. 선형 보상 가정 하에서 이 방법은 일致하고 점근적으로 정규 분포를 따르는 추정치를 도출하며, 수치 실험에서 모델 위반에 대해 강건함을 입증하여 데이터 기반, 적응형 건강 행동 간병 조치의 발전을 이룬다.

ABSTRACT

Increasing technological sophistication and widespread use of smartphones and wearable devices provide opportunities for innovative and highly personalized health interventions. A Just-In-Time Adaptive Intervention (JITAI) uses real-time data collection and communication capabilities of modern mobile devices to deliver interventions in real-time that are adapted to the in-the-moment needs of the user. The lack of methodological guidance in constructing data-based JITAIs remains a hurdle in advancing JITAI research despite the increasing popularity of JITAIs among clinical scientists. In this article, we make a first attempt to bridge this methodological gap by formulating the task of tailoring interventions in real-time as a contextual bandit problem. Interpretability requirements in the domain of mobile health lead us to formulate the problem differently from existing formulations intended for web applications such as ad or news article placement. Under the assumption of linear reward function, we choose the reward function (the "critic") parameterization separately from a lower dimensional parameterization of stochastic policies (the "actor"). We provide an online actor-critic algorithm that guides the construction and refinement of a JITAI. Asymptotic properties of the actor-critic algorithm are developed and backed up by numerical experiments. Additional numerical experiments are conducted to test the robustness of the algorithm when idealized assumptions used in the analysis of contextual bandit algorithm are breached.

연구 동기 및 목표

  • 모바일 헬스 분야에서 데이터 기반, 즉각적 적응형 간병 조치(JITAIs)를 구성하는 데 있어 메타적 격차를 해소하기 위해.
  • 해당 분야의 특성에 맞게 해석 가능성을 고려한 컨텍스트 기반 밴딧 문제로 개인화된 JITAI 설계를 재정의하며, 웹 응용 프로그램의 제작 방식과 다름을 명시하기 위해.
  • 센서와 자가 보고 자료에서 유입되는 순차적 데이터를 이용해 사용자별 정책을 학습하는 온라인 액터-크리틱 알고리즘을 개발하기 위해.
  • 이dealized 가정 하에서 알고리즘의 점근적 일致성과 정규성을 확립하기 위해.
  • 핵심 가정(예: 선형 보상, 알려진 부담 수준)이 위반되었을 때의 강건성을 평가하기 위해.

제안 방법

  • JITAI 학습 문제를 맥락에 따라 달라지는 행동과 보상이 있는 컨텍스트 기반 밴딧 문제로 재구성한다.
  • 비평가(보상 모델)와 액터(스토케스틱 정책)를 별도로 매개변수화하여 해석 가능성과 분리된 학습을 가능하게 한다.
  • 신규 데이터가 도착함에 따라 정책과 보상 추정치를 온라인 업데이트하여 실시간 적응을 지원한다.
  • 두 가지 시간 척도의 확률적 근사 방법을 적용: 비평가의 업데이트가 빠르게 이루어져 액터의 업데이트를 안내한다.
  • 정책 매개변수에 대한 신뢰구간을 구성하기 위해 백분위수-t 부트스트랩을 적용한다.
  • 선형 보상 함수를 가정하고 비평가의 경우 최소 제곱 추정법을 사용하며, 액터의 경우 정책 기울기 업데이트를 적용한다.

실험 결과

연구 질문

  • RQ1의사결정의 해석 가능성과 실시간 학습이 핵심인 모바일 헬스 환경에서 액터-크리틱 프레임워크를 어떻게 적응시킬 수 있는가?
  • RQ2표준 가정 하에서 제안된 온라인 알고리즘이 최적 정책의 일관되고 점근적으로 정규 분포를 따르는 추정치를 도출하는가?
  • RQ3선형 보상 가정이나 알려진 부담 매개변수의 위반이 발생했을 때 알고리즘의 강건성은 어떠한가?
  • RQ4다양한 표본 크기와 부담 효과 하에서 정책 매개변수 추정 성능은 어떠한가?
  • RQ5유한 표본에서 정책 매개변수에 대한 신뢰구간을 신뢰성 있게 구성할 수 있는가?

주요 결과

  • 이dealized i.i.d. 조건과 선형 보상 가정 하에서 정책 매개변수 추정치는 점근적으로 일관되고 정규 분포를 따르는 것으로 확인되었다.
  • 수치 실험 결과, 선형 보상 가정이 위반되었을 경우에도 알고리즘이 강건함을 입증하였으며, 특히 비선형성이나 관측되지 않은 부담 효과가 존재할 경우에도 유사한 결과를 보였다.
  • 표본 크기 500에서 정책 매개변수 추정치의 평균 제곱 오차(MSE)가 크게 감소하였으며, 가장 유리한 조건에서는 0.01 이하의 값을 기록하였다.
  • 백분위수-t 부트스트랩을 통한 신뢰구간의 커버리지 비율은 대부분의 시나리오에서 명목 수준(0.95)에 가까웠으나, 높은 부담 효과 조건에서는 일부 과소 커버리지가 관찰되었으며, 이는 표 22에 별표로 표기되어 있다.
  • 표본 크기가 커질수록 정책 매개변수 추정의 편향은 감소하였으며, 예를 들어 n=200일 때 τ=0.8에서 약 0.55에서 n=500일 때 약 0.38로 감소하여 시간이 지남에 따라 정확도가 향상됨을 보였다.
  • 진짜 부담 매개변수 λ가 오라클 값으로 고정되어 있음에도 불구하고, 알고리즘이 최적 정책을 성공적으로 학습하였으며, 표 16–23에서 대부분의 경우에 최소한의 편향과 MSE를 기록하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.