QUICK REVIEW

[논문 리뷰] Oversampling for Imbalanced Time Series Data

Tuanfei Zhu, Yaping Lin|arXiv (Cornell University)|2020. 04. 14.

Imbalanced Data Classification Techniques참고 문헌 49인용 수 5

한 줄 요약

이 논문은 고차원이고 불균형한 시계열 데이터를 위한 구조를 유지하는 오버샘플링 방법인 OHIT를 제안한다. 밀도 비율 기반 공유 근접 이웃을 사용하여 소수 클래스의 모드를 군집하고, 수축 기반 공분산 행렬을 추정하며, 다변량 정규분포를 통해 합성 샘플을 생성함으로써, 여러 단모달 및 다모달 시계열 데이터셋에서 F1, G-mean, AUC 측정치에서 최신 기술보다 뛰어난 성능을 보였다.

ABSTRACT

Many important real-world applications involve time-series data with skewed distribution. Compared to conventional imbalance learning problems, the classification of imbalanced time-series data is more challenging due to high dimensionality and high inter-variable correlation. This paper proposes a structure preserving Oversampling method to combat the High-dimensional Imbalanced Time-series classification (OHIT). OHIT first leverages a density-ratio based shared nearest neighbor clustering algorithm to capture the modes of minority class in high-dimensional space. It then for each mode applies the shrinkage technique of large-dimensional covariance matrix to obtain accurate and reliable covariance structure. Finally, OHIT generates the structure-preserving synthetic samples based on multivariate Gaussian distribution by using the estimated covariance matrices. Experimental results on several publicly available time-series datasets (including unimodal and multimodal) demonstrate the superiority of OHIT against the state-of-the-art oversampling algorithms in terms of F1, G-mean, and AUC. The code of OHIT is available at github.com/zhutuanfei/OHIT.

연구 동기 및 목표

복잡한 변수 간 상관관계를 가진 고차원 불균형 시계열 데이터의 분류 과제를 해결한다.
기존 오버샘플링 방법이 시계열 데이터의 소수 클래스 패턴의 내재된 구조를 유지하지 못하는 한계를 극복한다.
고차원 공간에서 소수 클래스 샘플의 단모달 및 다모달 분포를 효과적으로 포착하는 방법을 개발한다.
소수 클래스의 진정한 통계적 구조를 유지하는 합성 샘플을 생성함으로써 불균형 시계열 데이터셋에서의 분류 성능을 향상시킨다.

제안 방법

고차원 시계열 공간에서 소수 클래스 내의 서로 다른 모드를 식별하기 위해 밀도 비율 기반 공유 근접 이웃 군집 알고리즘을 적용한다.
각 식별된 모드의 공분산 구조를 안정적이고 정확하게 추정하기 위해 고차원 공분산 행렬에 수축 기법을 적용한다.
추정된 평균과 수축 기반 공분산 행렬을 파rameter로 사용하여 다변량 정규분포를 이용해 합성 샘플을 생성한다.
합성 샘플이 데이터의 진정한 기하학적 구조를 반영하도록 보장함으로써 소수 클래스 패턴의 구조적 및 분포적 특성을 유지한다.
군집화와 공분산 추정을 통합하여 단모달 및 다모달 소수 클래스 분포를 효과적으로 처리한다.
고차원 군집에서 추정한 공분산 구조를 활용하여 생성된 합성 샘플이 원본 데이터와 구조적으로 일致하도록 보장한다.

실험 결과

연구 질문

RQ1군집 기반 접근법이 고차원 시계열 데이터의 소수 클래스 내 다중 모드를 효과적으로 식별할 수 있는가?
RQ2고차원 공분산 행렬의 수축 기반 추정이 불균형 시계열 환경에서 합성 샘플 생성의 신뢰성을 향상시키는가?
RQ3소수 클래스 모드의 공분산 구조를 유지하는 것이 불균형 시계열 데이터셋에서의 분류 성능 향상에 어느 정도 기여하는가?
RQ4다양한 시계열 데이터셋에서 OHIT는 최신 오버샘플링 방법과 비교해 F1, G-mean, AUC 측정치에서 어떤 성능을 보이는가?

주요 결과

OHIT는 여러 공개된 시계열 데이터셋에서 최신 오버샘플링 기법보다 뛰어난 성능을 달성한다.
단모달 및 다모달 소수 클래스 분포 양쪽 모두에서 F1 점수, G-mean, AUC가 일관되게 향상된다.
밀도 비율 기반 군집화의 사용은 고차원 시계열 공간에서 소수 클래스 모드의 효과적인 식별을 가능하게 한다.
수축 기반 공분산 추정은 고차원 환경에서 합성 샘플 생성의 안정성과 신뢰성을 향상시킨다.
OHIT는 시계열 데이터에서 흔히 발생하는 복잡한 변수 간 상관관계를 효과적으로 처리하는 데에 뛰어난 견고성을 보인다.
OHIT의 코드는 GitHub에 공개되어 있어 재현성과 향후 연구를 용이하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.