[论文解读] Personalized HeartSteps: A Reinforcement Learning Algorithm for Optimizing Physical Activity
本文提出了一种个性化强化学习(RL)算法 HeartSteps V2,通过实时决策是否通过移动通知发送情境定制的活动建议,动态优化即时自适应干预(JITAI)以促进体力活动。该算法采用泰普森采样(Thompson sampling)并引入延迟治疗效应代理变量,以平衡探索与利用,相较于基线方法在合成数据和试点数据中均实现了更优的长期体力活动结果。
With the recent evolution of mobile health technologies, health scientists are increasingly interested in developing just-in-time adaptive interventions (JITAIs), typically delivered via notification on mobile device and designed to help the user prevent negative health outcomes and promote the adoption and maintenance of healthy behaviors. A JITAI involves a sequence of decision rules (i.e., treatment policy) that takes the user's current context as input and specifies whether and what type of an intervention should be provided at the moment. In this paper, we develop a Reinforcement Learning (RL) algorithm that continuously learns and improves the treatment policy embedded in the JITAI as the data is being collected from the user. This work is motivated by our collaboration on designing the RL algorithm in HeartSteps V2 based on data from HeartSteps V1. HeartSteps is a physical activity mobile health application. The RL algorithm developed in this paper is being used in HeartSteps V2 to decide, five times per day, whether to deliver a context-tailored activity suggestion.
研究动机与目标
- 开发一种强化学习算法,持续学习并优化移动健康中即时自适应干预(JITAI)的治疗策略。
- 通过动态决定是否基于实时用户情境发送情境定制建议,在 HeartSteps V2 中实现体力活动干预的个性化。
- 通过引入代理变量追踪干预负担和响应性,解决移动健康中延迟治疗效应的挑战。
- 利用基于 HeartSteps V1 生成的合成数据和 HeartSteps V2 临床试验的试点数据,评估算法性能。
- 通过实时平衡探索(收集证据)与利用(提供有效干预),提升长期干预效果。
提出的方法
- 该算法采用贝叶斯非参数模型,基于用户情境特征(如一天中的时间、位置和当前活动)估计活动建议对短期体力活动的影响。
- 采用泰普森采样平衡探索与利用,其中发送建议的概率根据治疗效应的后验估计进行更新。
- 引入延迟效应代理变量以捕捉先前建议的累积负担,帮助算法在效应延迟时避免过度发送干预。
- 利用 HeartSteps V1 的数据确定先验分布,并构建生成模型,用于合成评估强化学习策略。
- 该算法在 HeartSteps V2 临床试验中实时部署,每日基于当前情境和学习到的策略做出五次决策。
- 治疗效应的后验均值估计值按顺序更新,随机化概率根据估计的有效性及延迟响应的代理变量进行调整。
实验结果
研究问题
- RQ1强化学习算法能否有效利用移动健康数据,在实时环境中学习并优化体力活动干预的个性化治疗策略?
- RQ2引入延迟治疗效应代理变量如何提升即时自适应干预的性能与安全性?
- RQ3与基线方法(如无延迟效应代理的泰普森采样)相比,所提出的 RL 算法的相对性能如何?
- RQ4个体对干预的响应性差异如何影响算法的学习动态与随机化概率?
- RQ5算法能否快速适应用户响应性的变化(如随时间减弱的有效性),以防止用户参与度下降?
主要发现
- 在基于 HeartSteps V1 数据生成的合成实验中,所提出的 RL 算法优于基线泰普森采样方法,表现出更优的长期体力活动结果。
- 在 HeartSteps V2 的试点数据中,参与者 ID=4 在收到建议后步数未见改善,但算法仍以 0.2–0.4 的概率持续随机化,表明其对无效性的信号检测能力不足。
- 参与者 ID=7 对干预高度敏感,但响应性随时间下降;然而,算法的随机化概率仅在延迟后才显著降低,表明代理机制对快速变化的响应仍显不足。
- 试点数据中,延迟治疗效应的代理变量成功在存在延迟响应时减少了干预频率,表现为实际与代理调整后随机化概率之间存在明显差距。
- 算法性能对延迟效应代理的质量高度敏感,试点数据的经验促使算法修订,以提升响应性并减少过度使用。
- 未来工作需整合相似用户的信息以加速学习,并优化负担与参与度指标,以实现更优的实时自适应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。