[논문 리뷰] aeon: a Python toolkit for learning from time series
aeon은 시계열 머신러닝을 위한 통합된 Python 3 라이브러리로, 예측, 분류, 외부 회귀(extrinsic regression), 클러스터링, 실험 모듈을 제공하며 scikit-learn 스타일 API와 최소한의 핵심 의존성을 갖습니다.
aeon is a unified Python 3 library for all machine learning tasks involving time series. The package contains modules for time series forecasting, classification, extrinsic regression and clustering, as well as a variety of utilities, transformations and distance measures designed for time series data. aeon also has a number of experimental modules for tasks such as anomaly detection, similarity search and segmentation. aeon follows the scikit-learn API as much as possible to help new users and enable easy integration of aeon estimators with useful tools such as model selection and pipelines. It provides a broad library of time series algorithms, including efficient implementations of the very latest advances in research. Using a system of optional dependencies, aeon integrates a wide variety of packages into a single interface while keeping the core framework with minimal dependencies. The package is distributed under the 3-Clause BSD license and is available at https://github.com/ aeon-toolkit/aeon. This version was submitted to the JMLR journal on 02 Nov 2023 for v0.5.0 of aeon. At the time of this preprint aeon has released v0.9.0, and has had substantial changes.
연구 동기 및 목표
- 시계열 머신러닝 작업(예측, 분류, 외부 회귀, 클러스터링)을 포함한 단일화되고 사용하기 쉬운 Python 도구킷을 제공하는 것을 목표로 합니다.
- 패키지를 모듈식으로 설계하고 scikit-learn API와 호환되도록 하여 통합, 모델 선택, 파이프라인 구성을 용이하게 합니다.
- 핵심 의존성을 최소화하되 TSML의 다른 인기 라이브러리와의 선택적 통합을 가능하게 합니다.
- 광범위한 시계열 알고리즘과 유틸리티를 지원하고 단일 프레임워크 내에서 재현 가능한 벤치마크 및 실험을 가능하게 합니다.
제안 방법
- 학습 태스크 중심의 모듈로 구성된 모듈형 패키지 설계로 모듈 간의 교차 임포트를 거의 피합니다.
- scikit-learn 인터페이스에 맞춘 객체지향 추정기들로 구성되며, 기능을 설명하는 데이터 타입 태그(예: 다변량, 길이 불균등)를 포함하는 BaseCollectionEstimator를 포함합니다.
- numpy, scipy의 광범위한 활용과 핵심 scikit-learn 스타일 추정기 인터페이스를 사용합니다; 추가 알고리즘을 제공하기 위해선 선택적 의존성(statsmodels, TensorFlow, tsfresh)을 래핑하거나 제공합니다.
- 파이프라인에 통합되고 일반 처리와 컬렉션별 처리를 모두 지원하는 시계열-대-시계열 및 시계열-대-특징 변환기(Transformers).
- 세분화(segmentation), 이상탐지, 유사도 검색, 벤치마킹 등 실험 지향 모듈이 빠르게 진화하도록 의도되었습니다.
- 예측 인터페이스는 모델 선택, 평가, 앙상블, 확률 구간, 계층적/글로벌 예측, 패널 예측 등의 도구를 지원하며 입력은 주로 pandas DataFrame/Series 및 변환 유틸리티를 사용합니다.
실험 결과
연구 질문
- RQ1단일한 scikit-learn 스타일 인터페이스로 시간 순서형 데이터의 머신러닝 작업을 얼마나 잘 통합하면서 task-specific 요구를 해치지 않을 수 있는가?
- RQ2예측, 분류, 클러스터링, 외부 회귀를 포함한 시간 시계열에 대한 쉽게 통합, 벤치마킹, 재현성을 달성하기 위한 설계 선택은 무엇인가?
- RQ3핵심 의존성을 최소화하면서도 선택적 통합을 통해 다양한 TSML 알고리즘에 접근할 수 있게 하는 한계는 어디까지인가?
- RQ4모듈화된 작업 지향 아키텍처가 시계열 ML 커뮤니티의 실험과 채택을 얼마나 촉진할 수 있는가?
- RQ5실험 모듈(세분화, 이상탐지, 유사도 검색, 벤치마킹)의 범위와 잠재력은 빠른 개발과 테스트에 어떤 영향을 미치는가?
주요 결과
- aeon은 예측, 분류, 클러스터링, 외부 회귀 및 실험적 작업을 포괄하는 시계열 ML을 위한 포괄적이고 모듈식 도구킷을 제공합니다.
- 패키지는 사용 용이성과 파이프라인 및 모델 선택 도구와의 통합을 용이하게 하기 위해 scikit-learn 유사 API를 따릅니다.
- aeon은 핵심 의존성을 최소화하고 인기 있는 TSML 패키지와의 선택적 통합을 통해 넓지만 간결한 인터페이스를 가능하게 합니다.
- 핵심 모듈은 데이터 기능(예: 다변량, 길이 불균등)을 설명하는 태그가 있는 공통 기반 구조를 중심으로 설계되어 유연한 데이터 처리를 촉진합니다.
- 예측 모듈은 확률적 구간 및 계층적/글로벌 예측을 포함한 고급 기능과 함께 확립된 도구(prophet, pmdarima, statsforecast, tbats)와 상호작용합니다.
- 다양한 분류, 클러스터링, 회귀 접근법이 구현되어 있으며, 컨볼루션, 사전 기반, 거리 기반, 특징 기반, 하이브리드, 구간 기반, 시퀀스 기반 등 다양한 방법을 포함합니다.
- Transformers를 통해 파이프라인 내에서 시계열을 시계열 대 시계열 및 시계열 대 특징으로 변환하여 푸리에 변환 및 TSFresh 특징과 같은 표현을 지원합니다.
- 실험 모듈은 세분화, 이상탐지, 유사도 검색, 벤치마킹을 포괄하며 활발한 개발과 향후 확장을 시사합니다.
- aeon은 재현 가능한 TSML 연구와 파이썬 생태계 내의 통합을 촉진하기 위한 단일화되고 확장 가능한 프레임워크로 자리잡고 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.