[论文解读] Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition
本文提出 HART,一种用于基于 IMU 的 HAR 的轻量级传感器维 Transformer,在 FLOPS/参数更少的同时,精度有所提升,并对设备/位置异质性具有更好的鲁棒性。
Human Activity Recognition (HAR) on mobile devices has been demonstrated to be possible using neural models trained on data collected from the device's inertial measurement units. These models have used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), Transformers or a combination of these to achieve state-of-the-art results with real-time performance. However, these approaches have not been extensively evaluated in real-world situations where the input data may be different from the training data. This paper highlights the issue of data heterogeneity in machine learning applications and how it can hinder their deployment in pervasive settings. To address this problem, we propose and publicly release the code of two sensor-wise Transformer architectures called HART and MobileHART for Human Activity Recognition Transformer. Our experiments on several publicly available datasets show that these HART architectures outperform previous architectures with fewer floating point operations and parameters than conventional Transformers. The results also show they are more robust to changes in mobile position or device brand and hence better suited for the heterogeneous environments encountered in real-life settings. Finally, the source code has been made publicly available.
研究动机与目标
- 解决 HAR 中来自不同设备和体位的客户端数据异质性。
- 为基于 IMU 的移动设备 HAR 量身定制开发一个轻量级的 Transformer 架构。
- 在多个 HAR 数据集上比较 HART 和 MobileHART 与 CNN/CNN-LSTM 及 ViT 变体在效率和准确性方面的表现。
提出的方法
- 提出适用于传感器级 IMU 输入的 HART 和 MobileHART 架构,借鉴 ViT 与 MobileViT。
- 使用对传感器逐个的多头自注意力,且每个传感器的嵌入维度较小以降低复杂度。
- 实现共享的 MSA(OneMSA)以进一步减少参数和计算。
- 采用全局平均池化替代类别令牌以降低计算。
- 使用窗口化 IMU 数据、50 Hz 采样率,并在每个数据集上采用 70/10/20 的训练/验证/测试划分。
- 在五个 HAR 数据集上进行评估,包含 UCI、MotionSense、HHAR、RealWorld 与 SHL。
实验结果
研究问题
- RQ1 transformer-based HAR 模型在异质传感设备与体位下的表现如何?
- RQ2传感器级注意力与轻量化模块在保持准确性的同时能否降低移动 HAR 的计算量?
- RQ3共享 MSA 与传感器级融合对鲁棒性与效率有何影响?
- RQ4HART 的变体在真实设备环境中与 CNN/CNN-LSTM 和 ViT 基线相比如何?
主要发现
- HART 与 MobileHART 在 UCI 数据集上以更少的参数和 FLOPS 实现具有竞争力或优于 ViT 与 CNN 基线的 F-scores。
- 具备传感器级 MSA 与 LightConv 的 HART 变体通过将注意力分布在各传感器上来降低计算,从而提升效率。
- MobileHART XS/XXS 配置在显著降低参数量和 FLOPS 的同时提供强劲的准确性。
- 模型对跨域迁移如未见设备和在体位置的鲁棒性在多个 HAR 数据集上得到体现。
- 作者在智能手机上给出推理时延和内存占用评估以验证真实设备的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。