[논문 리뷰] Time Series as Images: Vision Transformer for Irregularly Sampled Time Series
ViTST는 불규칙하게 샘플링된 다변량 시계열을 선 그래프 이미지로 변환하고 사전 학습된 비전 트랜스포머를 미세조정하여 분류를 수행하며, 최첨단 성능과 누락 데이터에 대한 강건성을 달성합니다.
Irregularly sampled time series are increasingly prevalent, particularly in medical domains. While various specialized methods have been developed to handle these irregularities, effectively modeling their complex dynamics and pronounced sparsity remains a challenge. This paper introduces a novel perspective by converting irregularly sampled time series into line graph images, then utilizing powerful pre-trained vision transformers for time series classification in the same way as image classification. This method not only largely simplifies specialized algorithm designs but also presents the potential to serve as a universal framework for time series modeling. Remarkably, despite its simplicity, our approach outperforms state-of-the-art specialized algorithms on several popular healthcare and human activity datasets. Especially in the rigorous leave-sensors-out setting where a portion of variables is omitted during testing, our method exhibits strong robustness against varying degrees of missing observations, achieving an impressive improvement of 42.8% in absolute F1 score points over leading specialized baselines even with half the variables masked. Code and data are available at https://github.com/Leezekun/ViTST
연구 동기 및 목표
- 불규칙하게 샘플링된 시계열 데이터를 이미지로 시각화하는 간단하고 보편적인 접근 방식의 필요성 제시.
- 선 그래프 이미지에서 시계열 동적 특성과 변수 간 관계를 모델링하기 위해 사전 학습된 비전 트랜스포머를 활용.
- 헬스케어 및 인간 활동 데이터셋에서 최첨단 성능과 강건성 시연.
- 불규칙한 시계열과 규칙적인 시계열 모두에 적용 가능함을 보이고 일반 프레임워크로서의 다재다능성 강조.
제안 방법
- 각 변수의 선 그래프를 격자형 레이아웃으로 플로팅하여 다변수 불규칙 시계열을 단일 RGB 이미지로 변환합니다.
- 변수별로 일관된 스케일과 색상 코딩을 사용하여 선 그래프를 표현합니다.
- 결과 이미지에 대해 미세조정된 사전 학습 비전 트랜스포머(Swin Transformer)를 분류 용도로 사용합니다.
- 원한다면 RoBERTa 인코더로 인코딩한 정적 인구통계/텍스트 특징을 이미지 임베딩과 연결하여 활용합니다.
- 변수 누락에 대한 강건성을 테스트하기 위해 leave-sensors-out 설정에서 평가합니다.
![Figure 1: An illustration of our approach ViTST. The example is from a healthcare dataset P12 [ 12 ] , which provides the irregularly sampled observations of 36 variables for patients (we only show 4 variables here for simplicity). Each column in the table is an observation of a variable, with the o](https://ar5iv.labs.arxiv.org/html/2303.12799/assets/x1.png)
실험 결과
연구 질문
- RQ1비전 트랜스포머가 자연 이미지에서 학습되었을 때 입력을 선 그래프 이미지로 시각화하면 불규칙 샘플링된 시계열을 효과적으로 분류할 수 있는가?
- RQ2ViTST 프레임워크가 누락 관측치에 대한 강건성과 헬스케어 및 인간 활동 데이터셋 간의 성능 일관성을 제공하는가?
- RQ3격자 레이아웃, 이미지 해상도 및 플로팅 세부사항이 성능에 어떤 영향을 미치는가?
- RQ4정규 시계열 데이터에 적용할 때도 방법이 경쟁력이 있으며 정적 특징이 포함될 때도 동일하게 작동하는가?
주요 결과
- ViTST는 P19에서 AUROC 89.2%, AUPRC 53.1%를 달성하고 P12에서 AUROC 85.1%, AUPRC 51.1%를 달성하여 불규칙 시계열 시 방법 중 최첨단을 능가합니다.
- PAM 데이터셋에서 ViTST는 정확도 95.8%, 정밀도 96.2%, 재현율 96.1%, F1 점수 96.5%를 달성합니다.
- ViTST는 데이터셋 전반에 걸쳐 AUROC/정확도 지표에서 선두 baselines보다 2.2–7.3 포인트 우수합니다.
- leave-sensors-out 조건에서 ViTST는 여전히 강한 성능을 유지하고 F1 점수에서 최대 42.8%까지 baselines를 상회합니다.
- 사전 학습된 비전 트랜스포머(ViT/Swin)는 처음부터 학습하는 것보다 상당한 이점을 제공하여 자연 이미지에서 선 그래프 시계열 이미지로의 효과적 전이를 보여줍니다.
- Abalation은 플로팅 변동에 대한 강건성을 보여주며 색상 코딩 및 변수별 선 그래프가 성능에 중요함을 시사합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.