QUICK REVIEW

[論文レビュー] An Actor-Critic Contextual Bandit Algorithm for Personalized Mobile Health Interventions

Huitian Lei, Lu, Yangyi|arXiv (Cornell University)|Jun 28, 2017

Advanced Bandit Algorithms Research参考文献 20被引用数 44

ひとこと要約

本稿では、報酬モデル（クリティック）とポリシー学習（アクトア）を分離することで、個人に合わせたリアルタイムなモバイルヘルス介入（JITAIs）を学習するオンラインのアクターキリティカルコンテキストバンドイットアルゴリズムを提案する。線形報酬仮定の下で、一貫性と漸近正規性の推定が達成され、数値実験ではモデルの違反に対しても頑健であることが示され、データ駆動型で適応的な行動介入の発展に寄与する。

ABSTRACT

Increasing technological sophistication and widespread use of smartphones and wearable devices provide opportunities for innovative and highly personalized health interventions. A Just-In-Time Adaptive Intervention (JITAI) uses real-time data collection and communication capabilities of modern mobile devices to deliver interventions in real-time that are adapted to the in-the-moment needs of the user. The lack of methodological guidance in constructing data-based JITAIs remains a hurdle in advancing JITAI research despite the increasing popularity of JITAIs among clinical scientists. In this article, we make a first attempt to bridge this methodological gap by formulating the task of tailoring interventions in real-time as a contextual bandit problem. Interpretability requirements in the domain of mobile health lead us to formulate the problem differently from existing formulations intended for web applications such as ad or news article placement. Under the assumption of linear reward function, we choose the reward function (the "critic") parameterization separately from a lower dimensional parameterization of stochastic policies (the "actor"). We provide an online actor-critic algorithm that guides the construction and refinement of a JITAI. Asymptotic properties of the actor-critic algorithm are developed and backed up by numerical experiments. Additional numerical experiments are conducted to test the robustness of the algorithm when idealized assumptions used in the analysis of contextual bandit algorithm are breached.

研究の動機と目的

モバイルヘルス分野におけるデータ駆動型、ジャストインタイム・アダプティブ介入（JITAIs）を構築するための方法論的ギャップを埋めること。
ウェブアプリケーションの定式化とは異なり、解釈可能性を重視したコンテキストバンドイット問題として、個人に合わせたJITAI設計を定式化すること。
センサーと自己報告からの逐次データを用いて、ユーザー固有のポリシーを学習するオンラインのアクターキリティカルアルゴリズムを開発すること。
理想化された仮定の下で、アルゴリズムの漸近的一貫性と正規性を確立すること。
線形報酬や既知の負担といった重要な仮定が破られても、そのアルゴリズムの頑健性を評価すること。

提案手法

JITAI学習問題を、文脈に依存する行動と報酬を持つコンテキストバンドイット問題として定式化する。
クリティック（報酬モデル）とアクトア（確率的ポリシー）を別々にパラメータ化することで、解釈可能性と分離学習を可能にする。
新しいデータが到着するたびにポリシーと報酬推定値をオンラインで更新し、リアルタイムな適応を支援する。
2つの時間スケールを用いた確率的近似：クリティックの更新を速くして、アクトアの更新を支援する。
ポリシーのパラメータの信頼区間を構築するために、パーセンタイル-tブートストラップを適用する。
線形報酬関数を仮定し、クリティックには最小二乗推定を、アクトアにはポリシー勾配更新を用いる。

実験結果

リサーチクエスチョン

RQ1解釈可能性とリアルタイム学習が重要なモバイルヘルス文脈において、アクターキリティカルフレームワークをどのように適合させることができるか？
RQ2標準的な仮定の下で、提案されたオンラインアルゴリズムが最適ポリシーの推定に対して一貫性と漸近正規性を達成するか？
RQ3線形報酬仮定や既知の負担パラメータが破られても、アルゴリズムの頑健性はどの程度保たれるか？
RQ4さまざまなサンプルサイズと負担効果の下で、ポリシーのパラメータ推定の性能はどのようになるか？
RQ5有限標本において、ポリシーのパラメータの信頼区間を信頼性を持って構築できるか？

主な発見

理想的なi.i.d.および線形報酬仮定の下で、ポリシーのパラメータ推定値は漸近的に一貫性と正規性を示す。
数値実験では、線形報酬仮定が破られてもアルゴリズムが頑健であることが示され、特に非線形性や観測されない負担効果の存在下でも同様である。
サンプルサイズ500の時点で、ポリシーのパラメータ推定値の平均二乗誤差（MSE）は著しく低下し、最も好都合な条件下では0.01未満の値を示した。
パーセンタイル-tブートストラップによる信頼区間のカバレッジ率は、ほとんどのシナリオで名目水準（0.95）に近い水準を維持したが、高負担効果下では若干のカバレッジ不足が観察された（表22でアスタリスクで示されている）。
サンプルサイズが大きくなるにつれて、ポリシーのパラメータ推定のバイアスは減少し、例としてn=200のτ=0.8では約0.55からn=500では約0.38に低下した。これは時間の経過とともに精度が向上することを示している。
真の負担パラメータλがオラクル値に固定された場合でも、アルゴリズムは最適ポリシーを正しく学習でき、表16～23に示すように、ほとんどの場合でバイアスとMSEが最小限に抑えられていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。