QUICK REVIEW

[論文レビュー] Large Language Models are Few-Shot Health Learners

Xin Liu, Daniel McDuff|arXiv (Cornell University)|May 24, 2023

Machine Learning in Healthcare被引用数 34

ひとこと要約

本論文は、24Bの PaLM 言語モデルが few-shot prompt tuning を通じて数値的な健康データの時系列を grounding できることを示し、心臓病関連、代謝、活動、精神健康のタスクにおいて、ゼロショットおよび一部の監督付きベースラインに対して substantial improvements を達成する。

ABSTRACT

Large language models (LLMs) can capture rich representations of concepts that are useful for real-world tasks. However, language alone is limited. While existing LLMs excel at text-based inferences, health applications require that models be grounded in numerical data (e.g., vital signs, laboratory values in clinical domains; steps, movement in the wellness domain) that is not easily or readily expressed as text in existing training corpus. We demonstrate that with only few-shot tuning, a large language model is capable of grounding various physiological and behavioral time-series data and making meaningful inferences on numerous health tasks for both clinical and wellness contexts. Using data from wearable and medical sensor recordings, we evaluate these capabilities on the tasks of cardiac signal analysis, physical activity recognition, metabolic calculation (e.g., calories burned), and estimation of stress reports and mental health screeners.

研究の動機と目的

LLM による時系列データの grounding を評価するための数値的な消費者健康タスクのデータセットを作成する。
LLMs がウェルネスおよび臨床健康タスクの普遍的な few-shot 学習機として機能できることを示す。
ヘルス関連タスクにおける事前学習済み LLM の制限と、データによる grounding の利点を特定する。
少数の例で高い成果を達成する生理学的および行動学的に調整されたプロンプトベースのアプローチを提案する。

提案手法

定量的な健康データをテキストテンプレートに埋め込み、LLM の質問-回答ペアを作成する。
ゼロショット、プロンプトエンジニアリング、プロンプトチューニング（ソフト学習可能プロンプトを含む）アプローチを評価する。
文脈含有プロンプトと数値のみプロンプトを比較し、時系列データの grounding におけるドメイン文脈の役割を評価する。
大規模テキストとコードで事前学習された24B のトランスフォーマー（PaLM）を用い、5,000 ステップの tuning と 4096x1 のプロンプト埋め込みを行う。
同じ few-shot サンプルで学習させた監督付きベースライン（4096x1 の MLP）を比較のため含める。

実験結果

リサーチクエスチョン

RQ1大規模言語モデルは数値的な時系列健康データを grounding し、few-shot プロンプトで臨床およびウェルネスタスクにおいて意味のある推論を行えるか？
RQ2プロンプトチューニング（ゼロショットまたはプロンプトエンジニアリングに対して）は、健康関連の時系列タスクの性能にどのように影響するか？
RQ3 prompts におけるドメイン文脈の含有（コンテキスト含む）と生データの数値のみ（数値のみ）との違いが、モデルの精度に与える影響は？
RQ4ヘルス関連タスクでの LLM の制限と潜在的リスクは何か、そして grounding アプローチはそれらをどのように緩和するか？

主な発見

文脈含有プロンプトを用いたプロンプト調整済み LLM は、複数の健康タスクでゼロショットおよび監督付きベースラインを上回る。
25-shot プロンプトから調整済みプロンプトへ移行した場合、いくつかのタスクで特定のベースラインに対する最大で130%の性能向上を含む。
文脈含有プロンプトは、心房細動分類や活動認識などのタスクで、数値のみのプロンプトより一般に精度を向上させる。
長期の時系列入力での失敗率を低減し（0% の失敗）、データの大きな欠落が生じたプロンプトエンジニアリング手法と比べて失敗を抑えた。
ゼロショットの LLM は多くの生理学的タスクで性能が低く、ヘルスアプリケーションにおける groundingおよび/または文脈の必要性を浮き彫りにする。
タスクを通じて、調整済み LLM はゼロショットおよび場合によっては監督付きベースラインと比べて、誤差の大幅な低下と精度の向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。