[논문 리뷰] One Fits All:Power General Time Series Analysis by Pretrained LM
이 논문은 NLP/CV에서 고정된 사전학습 트랜스포머를 미세조정하여 가벼운 구성요소만 학습시키면 다양한 시계열Task에서 최첨단 혹은 경쟁력 있는 성능을 달성할 수 있음을 보여준다. 또한 자기 주의 동작을 분석하고 PCA와 연결하여 도메인 간 보편성을 설명한다.
Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer.The code is publicly available at https://github.com/DAMO-DI-ML/One_Fits_All.
연구 동기 및 목표
- 대규모 언어 또는 비전 데이터로 학습된 기반 모델로 일반적인 시계열 분석을 촉진하고 가능하게 한다.
- 코어 주의/FFN 블록을 수정하지 않고 고정된 사전학습된 변환기를 시계열 작업에 적응시키는 통합 프레임워크를 제안한다.
- 크로스-도메인 사전학습 모델이 여러 시계열 작업에서 최첨단에 버금가거나 경쟁력 있는 결과를 달성함을 보여준다.
- 자기 주의가 PCA와 유사한 표현을 왜 만들어내는지 이론적 및 실험적 통찰을 제공하여 도메인 간 보편성을 설명한다.
제안 방법
- 고정된 사전학습 변환기(GPT-2 백본)를 시계열 작업에 사용하되, self-attention과 FFN 블록은 고정하고 임베딩, 정규화, 출력층만 학습한다.
- 선형 탐 probing을 통해 시계열을 사전학습된 모델에 투영하기 위한 입력 임베딩 계층 설계.
- 데이터 정규화 및 패칭 메커니즘을 적용하여 로컬 의미 정보를 갖는 패치 기반 토큰을 형성한다.
- 다양한 시계열 작업(분류, 단기/장기 예측, 임퓨테이션, 이상 탐지, 소샷/제로샷 예측)에 대해 모델을 미세조정한다.
- 여러 사전학습 백본(GPT-2, BERT, BEiT)을 실험하여 도메인 간 보편성을 보여준다.
실험 결과
연구 질문
- RQ1고정된 사전학습 언어/비전 트랜스포머가 코어 트랜스포머 블록을 변경하지 않고도 일반 시계열 분석 작업에서 경쟁력 있는 성능을 달성할 수 있는가?
- RQ2교차 도메인 사전학습 지식 이전이 시계열 예측, 분류, 이상 탐지 및 임퓨테이션에 어느 정도 기여하는가?
- RQ3사전학습 트랜스포머의 자기 주의가 왜 PCA와 같은 표현을 모방하여 도메인 간 보편적 계산을 가능하게 하는가?
- RQ4교차 모달리티 사전학습 모델(언어, 비전)이 제로샷 및 소샷 설정을 포함한 시계열 작업에 보편적 효과를 제공하는가?
주요 결과
- GPT2-백본 FPT가 예측, 분류, 이상 탐지, 임퓨테이션 등 주요 시계열 작업에서 동등하거나 최첨단 성능을 달성했다.
- 임퓨테이션 실험에서 GPT2(3) FPT가 종종 최상의 결과를 내며 여러 데이터셋에서 MSE를 상당한 폭으로 감소시켰다.
- 분류 및 이상 탐지 결과에서 GPT2(6) FPT가 다수 벤치마크 및 데이터셋에서 베이스라인을 능가하거나 일치하는 성능을 보였다.
- 소샷 및 제로샷 예측은 GPT2(6) FPT가 광범위한 작업별 데이터 없이도 강한 성능을 유지한다는 것을 보여준다.
- 자기 주의가 PCA와 유사하게 작동한다는 분석은 트랜스포머 주의와 주성분 사이의 이론적 연결을 제공하며 보편성 주장에 기여한다.
- BERT 및 BEiT 백본으로의 실험은 시계열 작업을 위한 도메인 간 사전학습 모델의 보편성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.