QUICK REVIEW

[논문 리뷰] Scaling Wearable Foundation Models

Girish Narayanswamy, Xin Liu|arXiv (Cornell University)|2024. 10. 17.

Architecture and Computational Design인용 수 5

한 줄 요약

이 논문은 165k명 이상의 사용자로부터 멀티모달 웨어러블 데이터 4천만 시간까지의 데이터를 바탕으로 대형 센서 모델(LSM)을 학습하여 보완, 보간, 외삽 및 다운스트림 인식 작업에 대한 스케일링 법칙을 연구합니다. 계산량, 데이터, 모델 크기 확대가 포화 현상을 보이면서 성능 향상을 가져온다는 것을 보여줍니다.

ABSTRACT

Wearable sensors have become ubiquitous thanks to a variety of health tracking features. The resulting continuous and longitudinal measurements from everyday life generate large volumes of data; however, making sense of these observations for scientific and actionable insights is non-trivial. Inspired by the empirical success of generative modeling, where large neural networks learn powerful representations from vast amounts of text, image, video, or audio data, we investigate the scaling properties of sensor foundation models across compute, data, and model size. Using a dataset of up to 40 million hours of in-situ heart rate, heart rate variability, electrodermal activity, accelerometer, skin temperature, and altimeter per-minute data from over 165,000 people, we create LSM, a multimodal foundation model built on the largest wearable-signals dataset with the most extensive range of sensor modalities to date. Our results establish the scaling laws of LSM for tasks such as imputation, interpolation and extrapolation, both across time and sensor modalities. Moreover, we highlight how LSM enables sample-efficient downstream learning for tasks like exercise and activity recognition.

연구 동기 및 목표

대규모 비라벨 데이터 웨어러블 센서에서 견고한 표현을 학습하여 더 넓은 과학적·건강 인사이트를 가능하게 한다.
신경 네트워크의 스케일링 법칙이 데이터 양, 계산량, 모델 크기에 걸쳐 멀티모달 웨어러블 데이터로 확장되는지 조사한다.
대형 멀티모달 기반 모델(LSM)의 생성적(보간/추정/예측) 및 판별적(운동/활동 인식) 작업에서의 성능을 평가한다.
웨어러블 기초 모델의 스케일링을 위한 실용적인 데이터, 모델, 학습 고려사항을 식별하고 샘플 효율성과 일반화를 분석한다.
웨어러블 센서 모델링의 한계점과 향후 스케일링 및 견고성 향상을 위한 방향을 논의한다

제안 방법

마스킹 신호 재구성 목적어를 사용하여 80% 마스킹으로 멀티모달 웨어러블 기초 모델(LSM)을 사전 학습한다.
각 피험자당 300분 구간의 26개 신호를 처리하고, 웨어러블( PPG, ACC, EDA, 피부 온도, 고도계)에서의 분 단위 요약을 사용한다.
50,000스텝에 걸친 대규모 데이터(최대 4천만 시간)에서 165,090명의 피험자를 대상으로 학습하며, 일부 실험에서 사전 학습에 660만 명의 데이터를 사용하고, 배치 크기 4096, Google TPU를 사용한다.
네 가지 생성적 사전 학습 과제를 정의한다: 임의 보간, 시계열 보간, 센서(멀티모달) 보간, 시계열 외삽(예측).
운동 인식 및 여덟 분류 활도 인식 등 판별적 다운스트림 작업을 평가한다.
계산량, 데이터 크기, 모델 크기를 변화시키고, 데이터 시간 대비 피험자 수의 효과와 라벨 효율성을 평가하여 스케일링 법칙을 분석한다

실험 결과

연구 질문

RQ1스케일링 법칙(계산량/데이터/모델 크기)이 언어/비전 도메인과 유사하게 웨어러블 센서 기초 모델에도 적용되는가?
RQ2생성적 작업(보간/추정/외삽)이 데이터, 모델 크기, 계산량에 따라 어떻게 스케일링되는가?
RQ3LSM을 사용할 때 다운스트림의 판별적 작업에서 감독학습 기준선보다 성능 향상이 있는가?
RQ4샘플 효율성과 일반화를 최적화하는 데이터 및 데이터셋 설계 선택은 무엇인가?
RQ5웨어러블 센서 모델을 스케일링할 때의 한계점과 포화 지점은 어디인가?

주요 결과

재구성 손실과 계산량 사이의 파레토 프런트 스케일링 관계가 거듭제곱 법칙을 따르며, 포화 항이 더해진 형태로 매우 높은 계산량에서 수익 감소를 시사한다.
데이터 확장은 약 1e5 시간까지 성능 향상을 보이나 약 1e7 시간을 넘으면 개선이 감소한다; 4천만 시간 이상으로 확장해도 일부 실험에서 이점이 미미했다.
더 큰 모델은 과적합을 피하기 위해 훨씬 더 많은 데이터가 필요하며, 데이터 크기와 모델 크기를 함께 확장하면 여러 시간 구간에 걸쳐 시계열 보간에서 16-23% MAE 감소, 외삽에서 20-21% MAE 감소의 두드러진 개선을 얻는다.
LSM은 판별적 작업에서 교차검증 기준선 대비 예측 정확도 27%/29% 향상, 운동 검출 및 여덟 분류 활동 인식에서 각각 평균정확도 57%/54%의 mAP 향상을 보이며 기준선보다 우수하다.
웨어러블 기초 모델은 라벨 효율이 강하고, 데이터가 적은 경우 일반화가 더 잘 되며 사전 학습 이후 다운스트림 작업으로의 전달이 개선된다.
table_headers와 table_rows는 비어 있음으로 유지됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.