[論文レビュー] Towards a Personal Health Large Language Model
PH-LLMは、ウェアラブルの時系列の個人健康データを推論するために微調整されたGeminiをベースとするモデルで、個別化された睡眠・フィットネスの洞察を生成し、専門家のパフォーマンスと比較し、自己申告の睡眠アウトカムを予測します。
In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.
研究の動機と目的
- 睡眠とフィットネスにおける個別化ヘルスコーチングを支援するため、連続的なウェアラブル健康データとLLMsの統合を動機づける。
- 時系列センサデータを解釈しコーチング推奨を生成するための、微調整済みのGeminiモデルPH-LLMを開発・評価する。
- 個人健康QAとガイダンスタスクをベンチマークする新規データセットを作成する(長編ケーススタディ、専門試験、PRO予測)。
- PH-LLMのドメイン専門家に対する性能を評価し、マルチモーダルデータから自己申告睡眠アウトカムを予測する能力を確立する。
提案手法
- 睡眠とフィットネスのコーチングケーススタディの厳選データセットでGemini Ultra 1.0を微調整し、PH-LLMを作成する。
- 長編コーチングケーススタディ、睡眠医学とフィットネスのMCQ、ウェアラブルセンサデータからのPRO予測の3つのベンチマークデータセットを構築する。
- 長編回答に対する専門家による人間評価を用いてPH-LLMを評価し、LoRA調整されたGemini Pro 1.0モデルを用いた自動評価(AutoEval)も実施する。
- PRO予測のため、エンコードされた20x2のウェアラブル特徴表現をPH-LLMトークン空間へ射影するMLPアダプタを訓練し、テキストのみプロンプトやロジスティック回帰のベースラインと比較する。
- 専門家のルーブリックを用いて、パーソナライズ、データ活用、知識、安全性、読みやすさ、モデル回答の全体品質を評価する。

実験結果
リサーチクエスチョン
- RQ1PH-LLMは長期にわたるウェアラブルデータから、個別化された睡眠とフィットネスの洞察と推奨を生成できますか?
- RQ2PH-LLMは長編コーチングケーススタディにおけるドメイン専門家および睡眠医学とフィットネスの専門試験と比較してどうですか?
- RQ3マルチモーダルウェアラブルデータのエンコーディングは、患者が自己申告する睡眠アウトカムを予測するために必要かつ十分ですか?
- RQ4PH-LLMの微調整は、基準のGemini Ultra 1.0と比較してドメイン知識とパーソナライゼーションの活用を改善しますか?
- RQ5ケーススタディ回答の専門家評価を予測する自動評価(AutoEval)の信頼性はどの程度ですか?
主な発見
- PH-LLMはフィットネスコーチングで専門家パフォーマンスに近づき、微調整後には睡眠コーチングにおける専門家との差を大幅に縮める。
- マルチモーダルセンサデータのエンコーディングは、睡眠障害と睡眠障害PROを予測する識別モデルに対して必要かつ十分である。
- PH-LLMは睡眠MCQで79%(N=629)、フィットネスMCQで88%(N=99)を達成し、平均専門家スコアと継続教育のベンチマークを上回る。
- Ph-LLMのドメイン知識とパーソナライゼーションは、ベースのGemini Ultra 1.0と比較して微調整で改善される。
- AutoEvalフレームワークはケーススタディの人間専門家評価と相関し、モデル選択を導くことができる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。