Skip to main content
QUICK REVIEW

[論文レビュー] Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers

Albert Gu, Isys Johnson|arXiv (Cornell University)|Oct 26, 2021
Machine Learning in Healthcare参考文献 51被引用数 81
ひとこと要約

長期的な時系列モデリングのために、リカレント、畳み込み、連続時間モデリングを統合する Linear State-Space Layers (LSSLs) を紹介し、長距離記憶と効率的計算を可能にする理論を提供、長大なシーケンス課題で最先端の結果を達成。

ABSTRACT

Recurrent neural networks (RNNs), temporal convolutions, and neural differential equations (NDEs) are popular families of deep learning models for time-series data, each with unique strengths and tradeoffs in modeling power and computational efficiency. We introduce a simple sequence model inspired by control systems that generalizes these approaches while addressing their shortcomings. The Linear State-Space Layer (LSSL) maps a sequence $u \mapsto y$ by simply simulating a linear continuous-time state-space representation $\dot{x} = Ax + Bu, y = Cx + Du$. Theoretically, we show that LSSL models are closely related to the three aforementioned families of models and inherit their strengths. For example, they generalize convolutions to continuous-time, explain common RNN heuristics, and share features of NDEs such as time-scale adaptation. We then incorporate and generalize recent theory on continuous-time memorization to introduce a trainable subset of structured matrices $A$ that endow LSSLs with long-range memory. Empirically, stacking LSSL layers into a simple deep neural network obtains state-of-the-art results across time series benchmarks for long dependencies in sequential image classification, real-world healthcare regression tasks, and speech. On a difficult speech classification task with length-16000 sequences, LSSL outperforms prior approaches by 24 accuracy points, and even outperforms baselines that use hand-crafted features on 100x shorter sequences.

研究の動機と目的

  • 長いシーケンスに対して RNN、CNN、連続時間モデルの利点を統合する統一的なシーケンスモデルの必要性を動機づける。
  • Lineaar State-Space Layers (LSSLs) を連続時間の一般的な状態空間形式として導入する。
  • LSSLs が畳み込みと RNN を一般化できることを示し、長距離依存性のための HiPPO ベースの memorization との関連を示す。
  • Krylov/FFTベースの計算で効率的に長距離メモリを可能にする構造化 A 行列を提案する。
  • 長長い時系列データ、ヘルスケアデータ、画像、音声タスクにおいて LSSLs を経験的に検証する。

提案手法

  • LSSL を離散化された線形状態空間モデルとして定義する: \.dot{x}(t)=Ax(t)+Bu(t)、y=Cx(t)+Du(t) を一般化双線形変換(GBT)により離散化して x_t=Â x_{t-1}+ B¯ u_t、y_t=Cx_t+D u_t を得る。
  • LSSL は再帰的モデル(状態更新)と畳み込み(Krylov / インパルス応答)としての双方の特性を持ち、カーネル K_L(A,B,C) を用いて捉えられる。
  • LSSL が連続時間メモリとして畳み込みを包含すること、RNN が Δt の離散化として捉えられることを示す;ゲートは Δt に関連し、深さは Picard 反復に対応する。
  • HiPPO ベースの構造化 A 行列を取り入れ、原理に基づく長期記憶を実現し、A と記憶指標との理論的結びつきを提供する。
  • 準分離可能(quasiseparable)A 行列を用いた Krylov 関数計算の効率的なアルゴリズムを開発し、 大規模な訓練・推論を可能にする。
  • 正規化と残差接続を備えた深層アーキテクチャとして LSSL 層を積み重ね、長いシーケンス課題で最先端の結果を達成する。)

実験結果

リサーチクエスチョン

  • RQ1単一の線形状態空間フレームワークは、再帰的、畳み込み、および連続時間モデルの利点をどのように捕捉できるか。
  • RQ2 principled Structured state matrix A は高価な計算なしに長距離メモリを実現できるか。
  • RQ3LSSLs は従来の RNNs および CNNs を一般化し、Δt と離散化を通じて一般的な RNN のヒューリスティックを近似できるか。
  • RQ4 vision、healthcare、speech のベンチマークで非常に長いシーケンスに対して LSSLs はどのような実証性能を示すか。
  • RQ5構造化 A と Krylov ベースの計算を用いて、長いシーケンスの訓練と推論を高速化できるか。

主な発見

モデルsMNISTpMNISTsCIFAR
LSSL99.5398.7684.65
LSSL-fixed99.5098.6081.97
LipschitzRNN99.4096.3064.20
LMUFFT-98.49-
UNIcoRNN-98.40-
HiPPO-RNN98.9098.3061.10
URGRU99.2796.5174.40
IndRNN99.0096.00-
Dilated RNN98.0096.10-
r-LSTM98.4095.2072.20
CKConv99.3298.5463.74
TrellisNet99.2098.1373.42
TCN99.0097.20-
Transformer98.9097.9062.20
  • LSSLs は長い時系列分類ベンチマーク(例:sCIFAR)や長期時系列を対象とした医療データ回帰で最先端の結果を達成している(長さ4000)。
  • 長いシーケンスの連続 CelebA タスク(長さ38000)で、小さな LSSL がはるかに大きな ResNet-18 にほぼ匹敵。
  • 長い信号の生データ音声分類(長さ16000)で、事前処理特徴量を用いたベースラインを上回る。
  • 記憶ダイナミクス(A)と時間スケール(Δt)の両方を学習すると、固定 A のベースラインより大幅な性能向上を示し、パラメータ負荷は最小。
  • 構造化 A 行列(準分離可能)は線形時間の MVM と効率的な Krylov 計算を可能にし、長期依存の訓練を実現可能にする。
  • アブレーション実験では、ランダム A は性能を劣化させる一方、A と Δt の最適化は一貫した改善をもたらし、記憶設計と memorization 理論を結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。