[论文解读] A foundation model for electrodermal activity data
这篇论文提出 UME,一种用于皮肤电活动(EDA)的开源基础模型,在 EDAMAME 的大型、开放多数据集上训练,并在下游任务中表现优于基线,同时消耗资源更少。
Foundation models have recently extended beyond natural language and vision to timeseries domains, including physiological signals. However, progress in electrodermal activity (EDA) modeling is hindered by the absence of large-scale, curated, and openly accessible datasets. EDA reflects sympathetic nervous system activity and is widely used to infer cognitive load, stress, and engagement. Yet very few wearable devices provide continuous, unobtrusive sensing, and the only large-scale archive to date is proprietary. To address this gap, we compile EDAMAME, a collection of EDA traces from 24 public datasets, comprising more than 25,000 hours from 634 users. Using this resource, we train UME, the first dedicated foundation model for EDA. In eight out of ten scenarios, UME outperforms baselines and matches generalist timeseries foundation models while using 20x fewer computational resources. Our findings, however, also highlight the intrinsic challenges of EDA modeling, motivating further research to unlock its full potential. All datasets, model weights, and code are released to support further research.
研究动机与目标
- 推动开放的大规模 EDA 数据以实现可用于可穿戴信号的基础模型的必要性。
- 创建 EDAMAME,一个多样化、开放的 EDA 数据集集合,用于训练和评估模型。
- 开发 UME,一种用于 EDA 数据的开源基础模型,使用自监督对比学习进行训练。
- 在多样化的下游任务上评估 UME,并与手工特征及其他时间序列模型进行对比。
- 提供数据集、模型权重和代码的开放获取,以促进可重复性和进一步研究。
提出的方法
- 从 24 个公开 EDA 数据集中组装 EDAMAME,总计超过 25,000 小时、634 名用户,全部采用 Empatica E4 设备,采样率为 4 Hz。
- 对数据进行 Butterworth 低通滤波(0.4 Hz)预处理,并用 cvxEDA 将信号分解为相位(phasic)和基线(tonic)分量,输入包括相位、基线和原始 EDA 信号。
- 将数据分割为 60 秒的窗口,重叠 0.25 秒进行训练,产生大约 2.75 亿个用于 UME 训练的窗口。
- 训练 UME,一种具有 EfficientNet 主干的开源基础模型,适配于 1D 时间序列(输入长度 240、3 通道),参数约 100 万,潜在维度 d=64,使用 InfoNCE 损失进行对比学习。
- 对每个 EDA 段使用两个增强来创建正样本对;负样本来自批次中的其他段;进行消融实验,包括一次未成功的掩蔽重建尝试。
- 通过在下游 EDAMAME 测试集合上进行线性探针来评估表征,比较通用手工特征、EDA 专用手工特征以及通用时间序列基础模型(Chronos、MOMENT、Mantis)。
实验结果
研究问题
- RQ1一个在大型、开放的 EDA 多数据集语料库上训练的基础模型是否能够学习可迁移的下游 EDA 任务表征?
- RQ2与手工特征基线和现有通用时间序列基础模型相比,UME 在 EDA 分类任务中的表现如何?
- RQ3真实世界的 EDA 数据特征和挑战对模型学习和泛化有何影响?
主要发现
- UME 在 10 项下游任务中有 8 项优于基于通用手工特征的基线。
- UME 在使用至少 20× 更少的计算资源的情况下,达到了通用时间序列基础模型的性能水平。
- EDAMAME 包含大约 25,000 小时的 EDA 数据,来自 634 名用户,所有数据集的 EDA 采样率为 4 Hz。
- UME 模型使用具有约 1M 参数、潜在维度为 64 的 EfficientNet 主干,在 60 秒窗口和三种输入组件(相位、基线、原始)下工作。
- 各任务的平衡准确率通常低于 0.7,并且波动性较大,凸显 EDA 建模中的固有挑战。
- 所有数据集、模型权重和代码已公开,以支持进一步研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。