[論文レビュー] Hierarchical State Space Models for Continuous Sequence-to-Sequence Modeling
HiSS は現実世界のセンサデータからの連続的なシーケンス対シーケンス予測を改善するために、状態空間モデルの二層の時間的階層を構築し、LSTMと Transformers を上回り、小規模データセットにもスケールする。
Reasoning from sequences of raw sensory data is a ubiquitous problem across fields ranging from medical devices to robotics. These problems often involve using long sequences of raw sensor data (e.g. magnetometers, piezoresistors) to predict sequences of desirable physical quantities (e.g. force, inertial measurements). While classical approaches are powerful for locally-linear prediction problems, they often fall short when using real-world sensors. These sensors are typically non-linear, are affected by extraneous variables (e.g. vibration), and exhibit data-dependent drift. For many problems, the prediction task is exacerbated by small labeled datasets since obtaining ground-truth labels requires expensive equipment. In this work, we present Hierarchical State-Space Models (HiSS), a conceptually simple, new technique for continuous sequential prediction. HiSS stacks structured state-space models on top of each other to create a temporal hierarchy. Across six real-world sensor datasets, from tactile-based state prediction to accelerometer-based inertial measurement, HiSS outperforms state-of-the-art sequence models such as causal Transformers, LSTMs, S4, and Mamba by at least 23% on MSE. Our experiments further indicate that HiSS demonstrates efficient scaling to smaller datasets and is compatible with existing data-filtering techniques. Code, datasets and videos can be found on https://hiss-csp.github.io.
研究の動機と目的
- ノイズの多い高頻度センサデータからの連続的シーケンス対シーケンス予測の課題に対処する。
- CSP タスクの代表的なベンチマークを提供し、それに対して現代のシーケンスモデルを評価する。
- 予測精度を向上させるために時間的構造を活用する階層的アーキテクチャ(HiSS)を提案する。
- CSP タスクのデータ効率と前処理ニーズの削減を実証する。
提案手法
- CSP-Bench を導入し、触覚および IMU センサにまたがる六つのデータセットによる連続予測ベンチマークを提供する。
- 平坦なベースラインモデルとして S4 や Mamba のような Deep State Space Models(SSMs)を使用する。
- HiSS を提案し、入力系列のブロック上に低レベルの SSM を積み上げ、ハイレベルの SSM でブロック特徴を出力へマッピングする。
- エンドツーエンドで MSE ロスを用いて訓練し、標準化されたサンプリング(入力 50 Hz、出力 5 Hz)、および特徴量としての任意のワンステップ差分を適用する。
- 階層的モデリングが平坦なSSMsや他のベースラインに対して実質的な改善をもたらすことを示し、データ効率と前処理の適合性を分析する。
実験結果
リサーチクエスチョン
- RQ1SSMs は CSP-Bench のタスクで LSTMs や Transformers とどう比較されるのか?
- RQ2HiSS は時間的階層を活用することで、平坦なモデルを超える利点を提供するのか?
- RQ3HiSS はフィルタリングなどの標準的なセンサ前処理と互換性があるのか?
- RQ4HiSS は少データ領域や高次元入力でどう performance を発揮するのか?
主な発見
| Model type | Model Architecture | MW (cm/s) | IS (cm/s) | JC (cm/s) | R (m/s) | V (m/s) | TC (m/s) |
|---|---|---|---|---|---|---|---|
| Flat | Transformer | 2.3750 | 0.4600 | 1.0200 | - | 0.0432 | - |
| Flat | LSTM | 1.1685 | 0.3099 | 1.0740 | 0.0444 | 0.0353 | 0.1767 |
| Flat | S4 | 1.3190 | 0.2617 | 0.9804 | 0.0382 | 0.0341 | 0.3483 |
| Flat | Mamba | 0.8830 | 0.1757 | 1.0640 | 0.0401 | 0.0319 | 0.3645 |
| Hierarchical | Transformer | LSTM | 0.9958 | 0.2527 | 0.9350 | 0.0421 | 0.0377 | 0.3197 |
| Hierarchical | S4 | LSTM | 0.6205 | 0.1574 | 0.8980 | 0.0363 | 0.0374 | 0.3583 |
| Hierarchical | Mamba | LSTM | 1.0268 | 0.2022 | 0.9060 | 0.0472 | 0.0372 | 0.4560 |
| Hierarchical | S4 | S4 | 0.6590 | 0.1526 | 0.9080 | 0.0481 | 0.0322 | 0.3505 |
| Hierarchical | Mamba | S4 | 0.7915 | 0.1925 | 1.0610 | 0.0442 | 0.0286 | 0.3638 |
| Hierarchical | S4 | Mamba | 0.6255 | 0.1551 | 0.9060 | 0.0265 | 0.0303 | 0.3438 |
| Hierarchical | Mamba | Mamba | 0.7248 | 0.1678 | 0.9050 | 0.0325 | 0.0251 | 0.3762 |
- SSMs(Mamba, S4)は CSP-Bench で LSTMs および Transformers を上回り、タスク全体で中位値ベースの MSE を 10–14% 改善。
- HiSS は最良の平坦モデルを超えてタスク全体で中位の MSE を約23% 改善。
- 低レベルの構成要素として S4 を用いた HiSS は強力な利得を達成し、低レベルの時間的構造を効果的に捉えていることを示す。
- ダウンサンプリングのみでは HiSS の利益を再現できず、HiSS がナイーブなダウンサンプリングよりも多くの情報を蒸留していることを示す。
- HiSS はデータ効率を示し、より小さな学習データ subset でも良好に動作する。
- TotalCapture は SSMs および HiSS の失敗例であり、おそらく高次元の入力/output とノイズの多い人間生成データが原因。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。