QUICK REVIEW

[论文解读] Transforming Wearable Data into Personal Health Insights using Large Language Model Agents

Mike A. Merrill, Akshay Paruchuri|arXiv (Cornell University)|Jun 10, 2024

Topic Modeling被引用 7

一句话总结

PHIA 使用基于大模型的代理，结合代码生成和网页搜索，将可穿戴数据转化为个性化健康洞察，在人类评估中对客观查询的准确率达到 84%，对开放式查询的 favorable ratings 为 83%。它显著优于一个强大的代码生成基线。

ABSTRACT

Deriving personalized insights from popular wearable trackers requires complex numerical reasoning that challenges standard LLMs, necessitating tool-based approaches like code generation. Large language model (LLM) agents present a promising yet largely untapped solution for this analysis at scale. We introduce the Personal Health Insights Agent (PHIA), a system leveraging multistep reasoning with code generation and information retrieval to analyze and interpret behavioral health data. To test its capabilities, we create and share two benchmark datasets with over 4000 health insights questions. A 650-hour human expert evaluation shows that PHIA significantly outperforms a strong code generation baseline, achieving 84% accuracy on objective, numerical questions and, for open-ended ones, earning 83% favorable ratings while being twice as likely to achieve the highest quality rating. This work can advance behavioral health by empowering individuals to understand their data, enabling a new era of accessible, personalized, and data-driven wellness for the wider population.

研究动机与目标

从可穿戴时间序列数据中获得数据驱动、个性化的健康洞察，并能够进行说明和解释。
证明由大模型驱动的代理能够利用外部工具（代码与搜索）进行多步数值推理以推导洞察。
开发并发布高保真度的合成可穿戴数据与大型评估数据集，以便复现性与基准测试。

提出的方法

在 ReAct 框架中引入个人健康洞察代理（PHIA），结合多步迭代推理、代码生成和网页检索。
将 Python 数据分析运行时（Pandas）作为代码执行工具，以从可穿戴数据中推导数值洞察，同时保护原始数据隐私。
加入网页搜索机制，从可信域检索最新健康信息以支持推理并提供引用。
使用带有精选轨迹的少-shot 提示，掌握工具使用和多步推理。
开发并评估三个数据集：用于自动评估的客观查询、用于人工评估的开放式查询，以及用于真实场景的高保真合成可穿戴数据。

实验结果

研究问题

RQ1PHIA 能在多大程度上准确回答来自可穿戴数据的客观、数值型健康问题？
RQ2相较于基线，PHIA 在开放式健康查询上的推理能力有多高？
RQ3工具使用（代码生成与网页搜索）对性能的影响如何，与不使用代理的基线相比？
RQ4合成可穿戴数据是否能支持健康洞察代理的现实、可扩展评估？
RQ5PHIA 在安全/避免伤害与代码质量方面的表现如何？

主要发现

PHIA 在客观问题上实现了 84% 的精确匹配准确度，显著高于强大的代码生成基线的 74%。
在开放式问题上，PHIA 获得 83% 的 favorable 评分，并且达到最高质量级别的概率是基线的两倍。
由于网页检索与迭代推理，PHIA 在常识性问题和队列比较等查询中优势最为明显。
PHIA 具有较高的伤害规避能力，超过 99% 的回答被评为无害。
没有工具辅助的基线数值推理在精确数值任务上不及 PHIA，凸显可穿戴数据场景下工具使用的价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。