Skip to main content
QUICK REVIEW

[논문 리뷰] Transformer-based Models to Deal with Heterogeneous Environments in Human Activity Recognition

Sannara EK, François Portet|arXiv (Cornell University)|2022. 09. 22.
Context-Aware Activity Recognition Systems인용 수 20
한 줄 요약

The paper introduces HART, a lightweight sensor-wise transformer for IMU-based HAR, showing improved accuracy with fewer FLOPS/parameters and better robustness to device/position heterogeneity.

ABSTRACT

Human Activity Recognition (HAR) on mobile devices has been demonstrated to be possible using neural models trained on data collected from the device's inertial measurement units. These models have used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), Transformers or a combination of these to achieve state-of-the-art results with real-time performance. However, these approaches have not been extensively evaluated in real-world situations where the input data may be different from the training data. This paper highlights the issue of data heterogeneity in machine learning applications and how it can hinder their deployment in pervasive settings. To address this problem, we propose and publicly release the code of two sensor-wise Transformer architectures called HART and MobileHART for Human Activity Recognition Transformer. Our experiments on several publicly available datasets show that these HART architectures outperform previous architectures with fewer floating point operations and parameters than conventional Transformers. The results also show they are more robust to changes in mobile position or device brand and hence better suited for the heterogeneous environments encountered in real-life settings. Finally, the source code has been made publicly available.

연구 동기 및 목표

  • HAR에서 서로 다른 기기와 신체 위치로 인한 클라이언트 데이터의 이질성을 해결한다.
  • 모바일 기기의 IMU 기반 HAR에 맞춘 경량 트랜스포머 아키텍처를 개발한다.
  • 다수의 HAR 데이터셋에서 효율성과 정확도 측면에서 HART와 MobileHART를 CNN/CNN-LSTM 및 ViT 변종과 비교한다.

제안 방법

  • ViT 및 MobileViT에서 적응된 센서-별 IMU 입력을 위한 HART와 MobileHART 아키텍처를 제안한다.
  • 각 센서당 축소된 임베딩 크기로 센서-별 다중 헤드 자기주의를 사용하여 복잡도를 낮춘다.
  • 매개변수와 연산을 더 줄이기 위해 공유 MSA(OneMSA)를 구현한다.
  • 계산량 감소를 위해 클래스 토큰 대신 Global Average Pooling을 사용한다.
  • 데이터셋당 윈도우화된 IMU 데이터, 50 Hz 샘플링, 70/10/20의 train/validation/test 분할로 학습한다.
  • UCI, MotionSense, HHAR, RealWorld, SHL를 포함한 다섯 개 HAR 데이터셋에서 평가한다.

실험 결과

연구 질문

  • RQ1이질적인 센싱 기기와 신체 위치하에서 트랜스포머 기반 HAR 모델의 성능은 어떠한가?
  • RQ2센서-별 주의집중과 경량 블록이 모바일 HAR에서 정확도를 유지하면서 계산량을 줄일 수 있는가?
  • RQ3공유된 MSA와 센서-별 융합이 강건성 및 효율성에 미치는 영향은 무엇인가?
  • RQ4실제 장치 환경에서 HART 변형이 CNN/CNN-LSTM 및 ViT 기본 모델과 어떻게 비교되는가?

주요 결과

  • HART와 MobileHART는 UCI 데이터셋에서 ViT 및 CNN 기본 모델보다 더 적은 매개변수와 FLOPS로 경쟁력 있거나 우수한 F-score를 달성한다.
  • 센서-별 MSA 및 LightConv를 갖춘 HART 변형은 주의를 센서 간에 분배함으로써 계산량을 줄이고 효율성을 향상시킨다.
  • MobileHART XS/XXS 구성은 더 큰 아키텍처에 비해 현저히 낮은 매개변수 수와 FLOPS로 강한 정확도를 제공한다.
  • 모델은 보이지 않는 기기 및 신체 위치와 같은 도메인 시프트에 대해 여러 HAR 데이터셋에서 강건성을 보인다.
  • 저자들은 실제 기기 용이성을 검증하기 위해 스마트폰에서 추론 시간 및 메모리 점유 평가를 보고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.