QUICK REVIEW

[논문 리뷰] Human activity recognition based on time series analysis using U-Net

Yong Zhang, Yu Zhang|arXiv (Cornell University)|2018. 09. 20.

Context-Aware Activity Recognition Systems참고 문헌 29인용 수 26

한 줄 요약

이 논문은 가속도계 시계열 데이터를 단일 열, 다중 채널 표현으로 간주하여 이미지 유사 입력으로 처리하는 U-Net 기반 딥러닝 프레임워크를 제안한다. 수동 특징 추출 없이 픽셀 수준의 활동 레이블링을 가능하게 함으로써, SVM, kNN, DT, QDA, CNN, FCN과 비교해 네 가지 벤치마크 데이터셋에서 최신 기술 수준의 정확도와 F1 스코어를 달성하며, 빠른 추론 속도를 유지한다.

ABSTRACT

Traditional human activity recognition (HAR) based on time series adopts sliding window analysis method. This method faces the multi-class window problem which mistakenly labels different classes of sampling points within a window as a class. In this paper, a HAR algorithm based on U-Net is proposed to perform activity labeling and prediction at each sampling point. The activity data of the triaxial accelerometer is mapped into an image with the single pixel column and multi-channel which is input into the U-Net network for training and recognition. Our proposal can complete the pixel-level gesture recognition function. The method does not need manual feature extraction and can effectively identify short-term behaviors in long-term activity sequences. We collected the Sanitation dataset and tested the proposed scheme with four open data sets. The experimental results show that compared with Support Vector Machine (SVM), k-Nearest Neighbor (kNN), Decision Tree(DT), Quadratic Discriminant Analysis (QDA), Convolutional Neural Network (CNN) and Fully Convolutional Networks (FCN) methods, our proposal has the highest accuracy and F1-socre in each dataset, and has stable performance and high robustness. At the same time, after the U-Net has finished training, our proposal can achieve fast enough recognition speed.

연구 동기 및 목표

기존 슬라이딩 윈도우 HAR 방법에서 발생하는 다중 클래스 윈도우 문제를 해결하기 위해.
장기적인 시퀀스에서 각 샘플링 포인트에서 엔드 투 엔드로 픽셀 수준의 활동 레이블링을 가능하게 하기 위해.
원시 시계열 입력을 위한 딥러닝을 활용해 수동 특징 공학을 제거하기 위해.
기존 머신러닝 및 딥러닝 베이스라인 대비 정확도와 강건성을 향상시키기 위해.
실시간 HAR 응용을 위한 실시간 추론 속도를 확보하기 위해 훈련 후 빠른 추론 속도를 달성하기 위해.

제안 방법

U-Net 아키텍처에 입력하기 위해 삼축 가속도계 시계열을 단일 열, 다중 채널 이미지 표현으로 변환하기.
각 시간 단위(픽셀 수준 예측)에서 활동 클래스 레이블을 예측하기 위해 U-Net 모델을 엔드 투 엔드로 훈련하기.
순차적 데이터에서 공간적 및 시간적 맥락을 유지하기 위해 인코더-디코더 아키텍처와 스킵 연결을 활용하기.
특징 학습을 위해 배치 정규화와 ReLU 활성화 함수를 적용한 컨볼루션 레이어 사용하기.
시퀀스 수준의 레이블에 대한 지도 훈련을 위해 교차 엔트로피 손실 사용하기.
시간 단위를 1차원 이미지의 공간 위치로 간주함으로써 U-Net이 장기 시퀀스를 처리할 수 있도록 활용하기.

실험 결과

연구 질문

RQ1U-Net 기반 모델은 기존 슬라이딩 윈도우 방법에 비해 인간 활동 인식에서 뛰어난 성능을 달성할 수 있는가?
RQ2시계열을 이미지 유사 입력으로 매핑함으로써 수동 특징 추출 없이도 더 정확하고 픽셀 수준의 활동 레이블링이 가능한가?
RQ3다양한 HAR 데이터셋에서 정확도와 F1 스코어 측면에서 제안된 방법의 성능은 어떠한가?
RQ4U-Net 모델은 실시간 응용을 위해 높은 강건성과 빠른 추론 속도를 유지할 수 있는가?
RQ5SVM, kNN, DT, QDA, CNN, FCN에 비해 U-Net은 HAR 작업에서 어떤 비교 우위를 지닌다?

주요 결과

제안된 U-Net 기반 HAR 방법은 테스트한 네 가지 모든 데이터셋에서 가장 높은 정확도와 F1 스코어를 달성하여, SVM, kNN, DT, QDA, CNN, FCN를 모두 앞섰다.
짧은 행동이 장기 데이터에 포함된 다양한 활동 시퀀스에서도 안정적인 성능과 높은 강건성을 보였다.
각 샘플링 포인트를 개별적으로 레이블링함으로써 다중 클래스 윈도우 문제를 제거하여 혼합 클래스 윈도우 내에서의 잘못된 분류를 방지했다.
훈련 후 빠른 추론 속도를 확보하여 실시간 인간 활동 인식 응용에 적합했다.
수동 특징 추출이 전혀 필요로 하지 않아 원시 가속도계 데이터에서 엔드 투 엔드 학습에 전적으로 의존했다.
단일 열, 다중 채널 이미지 표현이 정확한 시퀀스 모델링을 위해 시간적 종속성을 효과적으로 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.