QUICK REVIEW

[논문 리뷰] Hierarchical Self Attention Based Autoencoder for Open-Set Human Activity Recognition

M Tanjid Hasan Tonmoy, Saif Mahmud|arXiv (Cornell University)|2021. 03. 07.

Context-Aware Activity Recognition Systems참고 문헌 31인용 수 15

한 줄 요약

이 논문은 착용형 센서 데이터를 사용한 오픈세트 인간 활동 인식을 위한 계층적 자기주의 어텐션 오토인코더를 제안하며, 다중 수준의 어텐션 메커니즘을 통해 시공간적 의존성을 모델링한다. 이는 다섯 개인 기준 데이터셋에서 최신 기술 수준의 성능을 달성하며, 재구성 손실을 통해 미리 보지 않은 활동을 강력하게 탐지할 수 있고, 어텐션 맵을 통해 활동 분류를 위한 해석 가능한 특징 선택을 제공한다.

ABSTRACT

Wearable sensor based human activity recognition is a challenging problem due to difficulty in modeling spatial and temporal dependencies of sensor signals. Recognition models in closed-set assumption are forced to yield members of known activity classes as prediction. However, activity recognition models can encounter an unseen activity due to body-worn sensor malfunction or disability of the subject performing the activities. This problem can be addressed through modeling solution according to the assumption of open-set recognition. Hence, the proposed self attention based approach combines data hierarchically from different sensor placements across time to classify closed-set activities and it obtains notable performance improvement over state-of-the-art models on five publicly available datasets. The decoder in this autoencoder architecture incorporates self-attention based feature representations from encoder to detect unseen activity classes in open-set recognition setting. Furthermore, attention maps generated by the hierarchical model demonstrate explainable selection of features in activity recognition. We conduct extensive leave one subject out validation experiments that indicate significantly improved robustness to noise and subject specific variability in body-worn sensor signals. The source code is available at: github.com/saif-mahmud/hierarchical-attention-HAR

연구 동기 및 목표

센서 고장이나 피험자 간 변동성으로 인해 미리 보지 않은 활동을 잘못 분류하는 폐쇄세트 HAR 모델의 한계를 해결하기 위해.
착용형 센서 데이터의 계층적 시공간적 의존성을 모델링하여 활동 표현을 향상시키기 위해.
오토인코더 아키텍처에서 재구성 손실을 통해 미지의 활동 클래스를 탐지함으로써 오픈세트 인식을 가능하게 하기 위해.
활동 분류를 위한 핵심 센서 위치와 시간 창을 강조하는 설명 가능한 어텐션 맵을 제공하기 위해.

제안 방법

두 수준으로 구성된 계층적 인코더를 사용: 센서 수준 자기주의 어텐션(SE)은 다양한 신체 부위의 신호를 집계하고, 윈도우 수준 자기주의 어텐션(HWE)은 세션 내 시간 윈도우를 융합한다.
대칭적인 오토인코더 아키텍처를 채택하여 디코더가 인코더의 어텐션 가이드드 컨텍스트를 사용해 입력 신호를 재구성한다.
자기주의 어텐션 메커니즘을 적용하여 관련 있는 센서와 시간 프레임을 강조하는 동적이고 맥락 인식 특징 표현을 학습한다.
재구성 손실을 이상치 점수로 사용하여 오픈세트 인식 환경에서 미지의 활동 클래스를 탐지하며, 알려진 클래스와 미지 클래스를 구분한다.
예측에 가장 기여하는 센서와 시간 윈도우를 시각화하기 위해 SE 및 HWE 레이어에서 어텐션 맵을 생성한다.
분류에 대한 교차 엔트로피 손실과 재구성에 대한 평균 제곱 오차 손실을 사용하여 엔드 투 엔드로 학습하며, 인코더와 디코더 간에 공유 파라미터를 사용한다.

실험 결과

연구 질문

RQ1비계층적 또는 순차적 모델에 비해 센서 신호의 계층적 자기주의 어텐션 모델링이 인간 활동 인식에서 분류 정확도 향상에 기여하는가?
RQ2제안된 오토인코더 아키텍처가 재구성 오차를 사용하여 오픈세트 인식 환경에서 미지의 활동 클래스를 효과적으로 탐지하는가?
RQ3계층적 모델의 어텐션 맵이 복잡한 활동에서 센서 및 시간 중요성의 직관적이고 설명 가능한 패턴을 어떻게 반영하는가?
RQ4모델이 피험자 간 변동성에 대해 얼마나 잘 일반화되고 강건한가?
RQ5伝통적 모델이 어려워하는 짧은, 복잡하거나 저지속성 활동에서도 모델이 높은 성능을 유지할 수 있는가?

주요 결과

제안된 모델은 창문 기반 분류에서 PAMAP2 데이터셋에서 매크로-F1 점수 0.94를 기록하며, 트랜스포머 및 하이브리드 네트워크를 포함한 모든 베이스라인을 초월한다.
Opportunity 데이터셋에서 고수준의 복잡한 활동에 대해 매크로-F1 점수 0.91을 기록하며, CNN(0.71), LSTM(0.73), DeepConvLSTM(0.791), AROMA(0.838)를 크게 앞서며 성능을 뛰어나게 한다.
한 명의 피험자를 제외한 유효성 검증(LOSO)에서, 네 개의 데이터셋에서 일관되게 베이스라인을 초월하여 피험자 특화 센서 변동성에 대한 강건성을 입증한다.
PAMAP2에서 오픈세트 탐지에 대해 정확도 0.85와 매크로-F1 0.69를 기록하며, 4개의 새로운 클래스를 탐지함으로써 미지 활동을 식별하는 데 강력한 능력을 보여준다.
어텐션 맵은 알려진 중수준의 동작과 이동 패턴과 시각적으로 일치하며, 활동 인식을 위한 설명 가능한 인과적 관련 특징을 학습하고 있음을 확인한다.
Daphnet 데이터셋에서 오픈세트 탐지에 대해 정확도 0.42와 매크로-F1 0.39를 기록하며, 성능 저하의 원인은 전이 동작이 클래스 경계를 흐리게 하기 때문으로 기인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.