[논문 리뷰] OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning
OpenSTL은 시공간 예측 학습을 위한 통합 벤치마크를 제공하며, 합성 데이터셋과 실제 데이터셋에서 14개 방법(순환 기반 vs 비순환 기반)을 비교하고, MetaFormers로 강화된 비순환 기반 모델의 효율성 우점을 강조합니다.
Spatio-temporal predictive learning is a learning paradigm that enables models to learn spatial and temporal patterns by predicting future frames from given past frames in an unsupervised manner. Despite remarkable progress in recent years, a lack of systematic understanding persists due to the diverse settings, complex implementation, and difficult reproducibility. Without standardization, comparisons can be unfair and insights inconclusive. To address this dilemma, we propose OpenSTL, a comprehensive benchmark for spatio-temporal predictive learning that categorizes prevalent approaches into recurrent-based and recurrent-free models. OpenSTL provides a modular and extensible framework implementing various state-of-the-art methods. We conduct standard evaluations on datasets across various domains, including synthetic moving object trajectory, human motion, driving scenes, traffic flow and weather forecasting. Based on our observations, we provide a detailed analysis of how model architecture and dataset properties affect spatio-temporal predictive learning performance. Surprisingly, we find that recurrent-free models achieve a good balance between efficiency and performance than recurrent models. Thus, we further extend the common MetaFormers to boost recurrent-free spatial-temporal predictive learning. We open-source the code and models at https://github.com/chengtan9907/OpenSTL.
연구 동기 및 목표
- 순환 기반 모델과 비교해 비순환 기반 구조가 시공간 예측에서 동일한 성능을 낼 수 있는지 확인한다.
- 다양한 STL 방법의 모듈식 구현을 갖춘 표준화되고 확장 가능한 벤치마크 프레임워크를 제공한다.
- 합성, 인간 모션, 주행, 교통, 기상 예측 데이터셋 전반에 걸친 성능, 효율성 및 견고성을 평가한다.
- STL 성능에 영향을 주는 아키텍처 특성과 데이터셋 특성에 대한 인사이트를 제공한다.
제안 방법
- OpenSTL 하에 14개의 STL 방법을 순환 기반과 순환 비 기반으로 분류하여 통일된 구현을 제공한다.
- 시간 모델링을 강화하기 위해 비순환 기반 모델에 MetaFormers를 확장한다.
- 합성 궤적, 인간 모션, 주행 장면, 교통 흐름, WeatherBench 데이터셋에 걸친 다양한 평가 프로토콜을 제시한다.
- MSE/MAE, SSIM/PSNR, LPIPS, 파라미터 수, FLOPs, FPS를 포함한 포괄적 메트릭을 사용한다.
- 훈련/테스트 분할 및 설정이 포함된 표준화된 데이터셋/통계 카탈로그(24개 모델, 다중 태스크)
- OpenSTL 저장소에서 코드와 모델의 OSS 공개를 한다.
실험 결과
연구 질문
- RQ1다양한 태스크에서 비순환 기반 시공간 모델이 순환 기반 모델과 비교할 만한 성능을 달성할 수 있는가?
- RQ2고해상도 및 저해상도 데이터에서 예측 정확도를 유지하면서 비순환 모델이 FLOPs, FPS 측면에서 더 나은 효율을 제공하는가?
- RQ3데이터셋의 속도(주파수), 해상도, 도메인 등의 속성이 순환 기반 대 비순환 기반 접근법의 상대적 강점에 어떤 영향을 미치는가?
- RQ4MetaFormer 스타일의 시간 모듈이 비순환 STL 성능을 향상시킬 수 있는가?
- RQ5입력 결손, 동적 변화, 가려짐 등의 조건에서 두 모델 계열의 견고성과 일반화 특성은 어떠한가?
주요 결과
| Method | Params (M) | FLOPs (G) | FPS | MSE ↓ | MAE ↓ | SSIM ↑ | PSNR ↑ |
|---|---|---|---|---|---|---|---|
| ConvLSTM | 15.0 | 56.8 | 113 | 29.80 | 90.64 | 0.9288 | 22.10 |
| PredNet | 12.5 | 8.4 | 659 | 161.38 | 201.16 | 0.7783 | 14.67 |
| PredRNN | 23.8 | 116.0 | 54 | 23.97 | 72.82 | 0.9462 | 23.28 |
| PredRNN++ | 38.6 | 171.7 | 38 | 22.06 | 69.58 | 0.9509 | 23.65 |
| MIM | 38.0 | 179.2 | 37 | 22.55 | 69.97 | 0.9498 | 23.56 |
| E3D-LSTM | 51.0 | 298.9 | 18 | 35.97 | 78.28 | 0.9320 | 21.11 |
| CrevNet | 5.0 | 270.7 | 10 | 30.15 | 86.28 | 0.9350 | 22.15 |
| PhyDNet | 3.1 | 15.3 | 182 | 28.19 | 78.64 | 0.9374 | 22.62 |
| MAU | 4.5 | 17.8 | 201 | 26.86 | 78.22 | 0.9398 | 22.57 |
| PredRNNv2 | 23.9 | 116.6 | 52 | 24.13 | 73.73 | 0.9453 | 23.21 |
| DMVFN | 3.5 | 0.2 | 1145 | 123.67 | 179.96 | 0.8140 | 16.15 |
| SimVP | 58.0 | 19.4 | 209 | 32.15 | 89.05 | 0.9268 | 21.84 |
| TAU | 44.7 | 16.0 | 283 | 24.60 | 71.93 | 0.9454 | 23.19 |
| SimVPv2 | 46.8 | 16.5 | 282 | 26.69 | 77.19 | 0.9402 | 22.78 |
| ViT | 46.1 | 16.9 | 290 | 35.15 | 95.87 | 0.9139 | 21.67 |
| Swin Transformer | 46.1 | 16.4 | 294 | 29.70 | 84.05 | 0.9331 | 22.22 |
| Uniformer | 44.8 | 16.5 | 296 | 30.38 | 85.87 | 0.9308 | 22.13 |
| MLP-Mixer | 38.2 | 14.7 | 334 | 29.52 | 83.36 | 0.9338 | 22.22 |
| ConvMixer | 3.9 | 5.5 | 658 | 32.09 | 88.93 | 0.9259 | 21.93 |
| Poolformer | 37.1 | 14.1 | 341 | 31.79 | 88.48 | 0.9271 | 22.03 |
| ConvNext | 37.3 | 14.1 | 344 | 26.94 | 77.23 | 0.9397 | 22.74 |
| VAN | 44.5 | 16.0 | 288 | 26.10 | 76.11 | 0.9417 | 22.89 |
| HorNet | 45.7 | 16.3 | 287 | 29.64 | 83.26 | 0.9331 | 22.26 |
| MogaNet | 46.8 | 16.5 | 255 | 25.57 | 75.19 | 0.9429 | 22.99 |
- 비순환 기반 모델은 특히 고해상도에서 효율성과 성능의 균형을 더 잘 맞추는 경향이 있다.
- Moving MNIST에서 다수의 비순환 기반 모델이 순환 기반 대비 훨씬 더 높은 FPS와 더 낮은 FLOPs로 경쟁력 있는 MSE/MAE를 달성한다.
- Kitti&Caltech와 같은 실제 작업에서 비순환 기반 아키텍처는 순환 기반 모델에 비해 계산 비용을 줄이면서 강한 지표를 유지한다.
- WeatherBench를 포함한 기상 예측에서 비순환 기반 모델이 MAE/RMSE에서 순환 기반보다 더 나은 성능을 보이며 거시 규모 적용성을 강조한다.
- 비순환 기반 모델을 MetaFormers로 확장하면 시간 모델링과 전반적인 성능이 향상된다.
- 견고성 분석에서 비순환 기반 모델이 입력 프레임 누락이나 가려짐에 더 강인한 경향을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.