QUICK REVIEW

[论文解读] Hierarchical Self Attention Based Autoencoder for Open-Set Human Activity Recognition

M Tanjid Hasan Tonmoy, Saif Mahmud|arXiv (Cornell University)|Mar 7, 2021

Context-Aware Activity Recognition Systems参考文献 31被引用 15

一句话总结

本文提出了一种用于可穿戴传感器数据的层次化自注意力自编码器，用于开放集人体活动识别，通过多级注意力机制建模时空依赖性。该方法在五个基准数据集上实现了最先进性能，并通过重建损失实现了对未见活动的鲁棒检测，同时注意力图提供了可解释的特征选择，用于活动分类。

ABSTRACT

Wearable sensor based human activity recognition is a challenging problem due to difficulty in modeling spatial and temporal dependencies of sensor signals. Recognition models in closed-set assumption are forced to yield members of known activity classes as prediction. However, activity recognition models can encounter an unseen activity due to body-worn sensor malfunction or disability of the subject performing the activities. This problem can be addressed through modeling solution according to the assumption of open-set recognition. Hence, the proposed self attention based approach combines data hierarchically from different sensor placements across time to classify closed-set activities and it obtains notable performance improvement over state-of-the-art models on five publicly available datasets. The decoder in this autoencoder architecture incorporates self-attention based feature representations from encoder to detect unseen activity classes in open-set recognition setting. Furthermore, attention maps generated by the hierarchical model demonstrate explainable selection of features in activity recognition. We conduct extensive leave one subject out validation experiments that indicate significantly improved robustness to noise and subject specific variability in body-worn sensor signals. The source code is available at: github.com/saif-mahmud/hierarchical-attention-HAR

研究动机与目标

为解决封闭集HAR模型因传感器故障或受试者差异而导致未见活动被错误分类的局限性。
对可穿戴传感器数据中的分层时空依赖性进行建模，以提升活动表征能力。
通过自编码器框架中的重建损失检测未知活动，实现在开放集识别中的未知类别检测。
提供可解释的注意力图，突出显示对活动分类贡献最大的传感器位置和时间窗口。

提出的方法

采用两级编码器结构：传感器级自注意力（SE）用于聚合来自不同身体部位的信号，窗口级自注意力（HWE）用于融合会话内的时间窗口。
采用对称的自编码器架构，解码器利用编码器中的注意力引导上下文来重建输入信号。
应用自注意力机制，学习动态、上下文感知的特征表示，突出显示相关传感器和时间帧。
使用重建损失作为异常分数，通过自编码器框架检测开放集识别中的未知活动类别，以区分已知与未知类别。
从SE和HWE层生成注意力图，以可视化对预测贡献最大的传感器和时间窗口。
采用端到端训练，分类任务使用交叉熵损失，重建任务使用均方误差损失，编码器与解码器共享参数。

实验结果

研究问题

RQ1与非分层或序列模型相比，对传感器信号进行分层自注意力建模是否能提升人体活动识别中的分类准确率？
RQ2所提出的自编码器架构是否能有效利用重建误差在开放集识别设置中检测未知活动类别？
RQ3分层模型生成的注意力图是否能反映复杂活动中传感器和时间重要性的直观、可解释的模式？
RQ4该模型在跨受试者场景下的泛化能力如何，是否对受试者特异性传感器差异保持鲁棒性？
RQ5在传统模型表现不佳的短时、复杂或低持续时间活动中，该模型是否能保持高性能？

主要发现

在PAMAP2数据集的窗口级分类中，所提模型实现了0.94的宏F1分数，优于所有基线模型，包括Transformer和混合网络。
在Opportunity数据集中，该模型在高层复杂活动上的宏F1达到0.91，显著优于CNN（0.71）、LSTM（0.73）、DeepConvLSTM（0.791）和AROMA（0.838）。
在留一受试者排除（LOSO）验证中，该模型在四个数据集上均持续优于基线模型，表明对受试者特异性传感器差异具有强鲁棒性。
在PAMAP2数据集上，该模型在开放集检测中实现了0.85的准确率和0.69的宏F1分数，包含4个新类别，表明其在识别未见活动方面具有强大能力。
注意力图与已知的中层动作和步行序列视觉上一致，证实模型学习到了可解释的、具有因果关联的特征用于活动识别。
在Daphnet数据集中，该模型在开放集检测中实现了0.42的准确率和0.39的宏F1分数，性能较低归因于过渡性活动导致类别边界模糊。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。