QUICK REVIEW

[논문 리뷰] Ultra-Fast Shapelets for Time Series Classification

Martin Wistuba, Josif Grabocka|arXiv (Cornell University)|2015. 03. 17.

Time Series Analysis and Forecasting참고 문헌 7인용 수 63

한 줄 요약

이 논문은 계산 비용이 높은 지도 학습 기반 탐색 대신 무작위로 샘플링된 형태셋을 사용하는 새로운 시간 시리즈 분류 방법인 초고속 형태셋(Ultra-Fast Shapelets, UFS)을 제안한다. 분류 가능한 부분 시퀀스의 冗 redundancy를 활용하여, UFS는 최신 기술 수준의 정확도를 달성하면서도 학습 시간을 최대 세 자리 수 감소시킨다. 이로 인해 장기적이고 다변량 시간 시리즈에 대한 효율적인 적용이 가능해지며, 최소한의 사전 처리 오버헤드를 유발한다.

ABSTRACT

Time series shapelets are discriminative subsequences and their similarity to a time series can be used for time series classification. Since the discovery of time series shapelets is costly in terms of time, the applicability on long or multivariate time series is difficult. In this work we propose Ultra-Fast Shapelets that uses a number of random shapelets. It is shown that Ultra-Fast Shapelets yield the same prediction quality as current state-of-the-art shapelet-based time series classifiers that carefully select the shapelets by being by up to three orders of magnitudes. Since this method allows a ultra-fast shapelet discovery, using shapelets for long multivariate time series classification becomes feasible. A method for using shapelets for multivariate time series is proposed and Ultra-Fast Shapelets is proven to be successful in comparison to state-of-the-art multivariate time series classifiers on 15 multivariate time series datasets from various domains. Finally, time series derivatives that have proven to be useful for other time series classifiers are investigated for the shapelet-based classifiers. It is shown that they have a positive impact and that they are easy to integrate with a simple preprocessing step, without the need of adapting the shapelet discovery algorithm.

연구 동기 및 목표

시간 시리즈 분류에서 지도 학습 기반 형태셋 탐색의 높은 계산 비용을 해결하기 위해.
기존 형태셋 방법이 계산 비용으로 인해 비현실적인 장기적이고 다변량 시간 시리즈에 대해 효율적인 분류를 가능하게 하기 위해.
형태셋 기반 분류기의 사전 처리 특징으로서 시간 시리즈 도함수의 영향을 평가하기 위해.
다양한 실제 데이터셋에서 최신 기술 수준의 다변량 시간 시리즈 분류기들과 UFS를 실증적으로 비교하기 위해.
무작위 형태셋 샘플링이 최적화된 지도 학습 기반 형태셋 선택의 정확도를 맞추거나 초월할 수 있음을 보여주기 위해.

제안 방법

지속적인 점수 평가나 반복 최적화가 필요 없이 시간 시리즈 부분 시퀀스에서 무작위로 형태셋을 샘플링하는 초고속 형태셋(UFS) 방법을 제안한다.
최소한의 거리 기반 특징을 각 시간 시리즈 부분 시퀀스와의 최소 거리 계산을 통해 무작위로 생성된 형태셋 풀에서 추출한다.
이러한 무작위 형태셋에서 유도된 변환된 특징 공간에 표준 분류기(예: 랜덤 포레스트)를 적용한다.
각 채널 또는 스트림에서 추출된 형태셋 특징을 연결함으로써 다변량 시간 시리즈로 방법을 확장한다.
형태셋 탐색 과정을 수정하지 않고도 특징 표현을 향상시키기 위해 시간 시리즈 도함수를 단순한 사전 처리 단계로 통합한다.
10겹 교차 검증을 사용한 검증 전략을 적용하고, 15개의 다변량 데이터셋에서 성능를 비교한다.

실험 결과

연구 질문

RQ1무작위 형태셋 샘플링이 지도 학습 기반 반복적 형태셋 탐색 방법과 비교해 유사하거나 더 높은 분류 정확도를 달성할 수 있는가?
RQ2시간 시리즈 도함수를 사전 처리로 사용할 경우 형태셋 기반 분류기의 예측 능력이 향상되는가?
RQ3기존 방법이 계산 비용으로 인해 실패하는 상황에서 초고속 형태셋이 장기적이고 다변량 시간 시리즈에 대해 효과적으로 확장 가능한가?
RQ4다양한 실제 데이터셋에서 최신 기술 수준의 다변량 시간 시리즈 분류기들과 비교했을 때 UFS의 성능과 속도는 어떠한가?
RQ5샘플링된 형태셋의 수가 최종 분류 정확도와 안정성에 미치는 영향은 무엇인가?

주요 결과

초고속 형태셋은 최신 기술 수준의 지도 학습 기반 형태셋 방법과 유사한 분류 정확도를 달성하면서도 학습 시간을 최대 세 자리 수 감소시킨다.
15개의 다변량 시간 시리즈 데이터셋에서, 도함수를 적용한 UFS(ΔUFS)는 SMTS보다 11개 중 11개의 경우, NNDTW보다 14개 중 14개의 경우에서 승리한다.
도함수 없이도 UFS는 SMTS보다 10개 중 10개의 경우, NNDTW보다 13개 중 13개의 경우에서 승리하여 뛰어난 강건성을 보여준다.
도함수 사용은 15개 데이터셋 중 11개에서 정확도 향상을 가져오며, ΔUFS는 8개의 데이터셋에서 UFS보다 낮은 테스트 오차율을 기록한다.
랜덤 포레스트를 사용한 UFS는 8개 데이터셋(ΔUFS)과 4개 데이터셋(UFS)에서 가장 낮은 테스트 오차율을 기록했으며, 대부분의 경우 MTSBF와 NNDTW를 능가한다.
이 방법은 장기적이고 다변량 시간 시리즈에 대해 확장 가능하고 효과적이며, 이전에는 계산 비용으로 인해 비현실적이던 분야에서도 형태셋 기반 분류의 실용적 적용을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.