QUICK REVIEW

[論文レビュー] Scaling Wearable Foundation Models

Girish Narayanswamy, Xin Liu|arXiv (Cornell University)|Oct 17, 2024

Architecture and Computational Design被引用数 5

ひとこと要約

本論文は、165k以上のユーザーからの最大4000万時間のマルチモーダルウェアラブルデータを用いて、欠損補完、補間、外挿、および下流の認識タスクのスケーリング法則を研究する大規模センサーモデル（LSM）を訓練します。計算資源・データ・モデルサイズをスケールさせると性能が向上しますが、高いスケールでは飽和が生じます。

ABSTRACT

Wearable sensors have become ubiquitous thanks to a variety of health tracking features. The resulting continuous and longitudinal measurements from everyday life generate large volumes of data; however, making sense of these observations for scientific and actionable insights is non-trivial. Inspired by the empirical success of generative modeling, where large neural networks learn powerful representations from vast amounts of text, image, video, or audio data, we investigate the scaling properties of sensor foundation models across compute, data, and model size. Using a dataset of up to 40 million hours of in-situ heart rate, heart rate variability, electrodermal activity, accelerometer, skin temperature, and altimeter per-minute data from over 165,000 people, we create LSM, a multimodal foundation model built on the largest wearable-signals dataset with the most extensive range of sensor modalities to date. Our results establish the scaling laws of LSM for tasks such as imputation, interpolation and extrapolation, both across time and sensor modalities. Moreover, we highlight how LSM enables sample-efficient downstream learning for tasks like exercise and activity recognition.

研究の動機と目的

大規模なラベルなしウェアラブルセンサデータから堅牢な表現を学習し、より広範な科学的・健康関連の洞察を可能にすることを動機づける。
ニューラルスケーリング法則が計算資源・データ量・モデルサイズ全体のマルチモーダルウェアラブルデータにも拡張するかを調査する。
生成タスク（欠損補完/補間/外挿）と識別タスク（運動/活動認識）での大規模マルチモーダルファウンデーションモデル（LSM）の性能を評価する。
ウェアラブルファウンデーションモデルのスケーリングとロバスト性を向上させるための実用的なデータ・モデル・訓練の考慮事項を特定し、サンプル効率と一般化を分析する。
ウェアラブルセンサーモデリングにおけるスケーリングと将来の方向性の制限点を議論する。

提案手法

80%のマスキングを用いたマスク信号再構築目的を用いたウェアラブルファウンデーションモデル（LSM）の事前訓練。
被験者あたり300分のセグメントで26信号としてデータを処理し、ウェアラブル端末からの1分ごとの要約（PPG、ACC、EDA、肌温、高度計）を用いる。
一部の実験では前訓練に660万件を用い、165,090人の被験者から40百万時間規模のデータで訓練。50,000ステップでGoogle TPUを用い、バッチサイズ4096。
4つの生成前訓練タスクを定義：ランダム欠損補完、時系列補間、センサ（マルチモーダル）欠損補完、時系列外挿（予測）。
運動検出と8クラスの活動認識を含む識別的下流タスクを評価。
計算資源・データ量・モデルサイズを変更してスケーリング法則を分析し、データ時間と被験者数の効果、ラベル効率を評価する。

実験結果

リサーチクエスチョン

RQ1スケーリング法則（計算資源/データ/モデルサイズ）は、言語・視覚分野に類似してウェアラブルセンサーファウンデーションモデルにも適用されるか？
RQ2生成タスク（欠損補完/補間/外挿）はデータ・モデルサイズ・計算資源とともにどのようにスケールするか？
RQ3LSMを用いた下流の識別タスクは、教師ありベースラインと比較してどの程度の性能向上を示すか？
RQ4ウェアラブルファウンデーションモデルのサンプル効率と一般化を最適化するデータとデザインの選択肢は何か？
RQ5ウェアラブルセンサーモデルをスケールさせる際の制限点と飽和点は何か？

主な発見

再構成損失と計算資源の間にパレートフロントのスケーリング関係があり、冪法則に飽和項を加えた形で表れ、非常に高い計算資源では取得利得が低下することを示す。
データスケーリングは約1e5時間まで性能向上を示すが、約1e7時間を超えると改善が低下する。40百万時間を超えるスケーリングは一部の実験で最小限の利点にとどまる。
より大きいモデルは過学習を避けるために substantially more data を必要とする；データサイズとモデルサイズのスケーリングを組み合わせると、複数の時間幅で時間的補間（MAEで16-23%削減）および外挿（MAEで20-21%削減）に顕著な改善をもたらす。
LSMは識別タスクでベースラインを上回り、運動検出と8クラスの活動認識でそれぞれ27%/29%の精度向上、mAPで57%/54%の向上を達成。
ウェアラブルファウンデーションモデルはラベル効率が高く、少量データ領域での一般化が良く、事前訓練後に下流タスクへの転移が改善される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。