QUICK REVIEW

[論文レビュー] Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers

Albert Gu, Isys Johnson|arXiv (Cornell University)|Oct 26, 2021

Machine Learning in Healthcare参考文献 51被引用数 81

ひとこと要約

長期的な時系列モデリングのために、リカレント、畳み込み、連続時間モデリングを統合する Linear State-Space Layers (LSSLs) を紹介し、長距離記憶と効率的計算を可能にする理論を提供、長大なシーケンス課題で最先端の結果を達成。

ABSTRACT

Recurrent neural networks (RNNs), temporal convolutions, and neural differential equations (NDEs) are popular families of deep learning models for time-series data, each with unique strengths and tradeoffs in modeling power and computational efficiency. We introduce a simple sequence model inspired by control systems that generalizes these approaches while addressing their shortcomings. The Linear State-Space Layer (LSSL) maps a sequence $u \mapsto y$ by simply simulating a linear continuous-time state-space representation $\dot{x} = Ax + Bu, y = Cx + Du$. Theoretically, we show that LSSL models are closely related to the three aforementioned families of models and inherit their strengths. For example, they generalize convolutions to continuous-time, explain common RNN heuristics, and share features of NDEs such as time-scale adaptation. We then incorporate and generalize recent theory on continuous-time memorization to introduce a trainable subset of structured matrices $A$ that endow LSSLs with long-range memory. Empirically, stacking LSSL layers into a simple deep neural network obtains state-of-the-art results across time series benchmarks for long dependencies in sequential image classification, real-world healthcare regression tasks, and speech. On a difficult speech classification task with length-16000 sequences, LSSL outperforms prior approaches by 24 accuracy points, and even outperforms baselines that use hand-crafted features on 100x shorter sequences.

研究の動機と目的

長いシーケンスに対して RNN、CNN、連続時間モデルの利点を統合する統一的なシーケンスモデルの必要性を動機づける。
Lineaar State-Space Layers (LSSLs) を連続時間の一般的な状態空間形式として導入する。
LSSLs が畳み込みと RNN を一般化できることを示し、長距離依存性のための HiPPO ベースの memorization との関連を示す。
Krylov/FFTベースの計算で効率的に長距離メモリを可能にする構造化 A 行列を提案する。
長長い時系列データ、ヘルスケアデータ、画像、音声タスクにおいて LSSLs を経験的に検証する。

提案手法

LSSL を離散化された線形状態空間モデルとして定義する： \.dot{x}(t)=Ax(t)+Bu(t)、y=Cx(t)+Du(t) を一般化双線形変換（GBT）により離散化して x_t=Â x_{t-1}+ B¯ u_t、y_t=Cx_t+D u_t を得る。
LSSL は再帰的モデル（状態更新）と畳み込み（Krylov / インパルス応答）としての双方の特性を持ち、カーネル K_L(A,B,C) を用いて捉えられる。
LSSL が連続時間メモリとして畳み込みを包含すること、RNN が Δt の離散化として捉えられることを示す；ゲートは Δt に関連し、深さは Picard 反復に対応する。
HiPPO ベースの構造化 A 行列を取り入れ、原理に基づく長期記憶を実現し、A と記憶指標との理論的結びつきを提供する。
準分離可能（quasiseparable）A 行列を用いた Krylov 関数計算の効率的なアルゴリズムを開発し、大規模な訓練・推論を可能にする。
正規化と残差接続を備えた深層アーキテクチャとして LSSL 層を積み重ね、長いシーケンス課題で最先端の結果を達成する。）

実験結果

リサーチクエスチョン

RQ1単一の線形状態空間フレームワークは、再帰的、畳み込み、および連続時間モデルの利点をどのように捕捉できるか。
RQ2 principled Structured state matrix A は高価な計算なしに長距離メモリを実現できるか。
RQ3LSSLs は従来の RNNs および CNNs を一般化し、Δt と離散化を通じて一般的な RNN のヒューリスティックを近似できるか。
RQ4 vision、healthcare、speech のベンチマークで非常に長いシーケンスに対して LSSLs はどのような実証性能を示すか。
RQ5構造化 A と Krylov ベースの計算を用いて、長いシーケンスの訓練と推論を高速化できるか。

主な発見

モデル	sMNIST	pMNIST	sCIFAR
LSSL	99.53	98.76	84.65
LSSL-fixed	99.50	98.60	81.97
LipschitzRNN	99.40	96.30	64.20
LMUFFT	-	98.49	-
UNIcoRNN	-	98.40	-
HiPPO-RNN	98.90	98.30	61.10
URGRU	99.27	96.51	74.40
IndRNN	99.00	96.00	-
Dilated RNN	98.00	96.10	-
r-LSTM	98.40	95.20	72.20
CKConv	99.32	98.54	63.74
TrellisNet	99.20	98.13	73.42
TCN	99.00	97.20	-
Transformer	98.90	97.90	62.20

LSSLs は長い時系列分類ベンチマーク（例：sCIFAR）や長期時系列を対象とした医療データ回帰で最先端の結果を達成している（長さ4000）。
長いシーケンスの連続 CelebA タスク（長さ38000）で、小さな LSSL がはるかに大きな ResNet-18 にほぼ匹敵。
長い信号の生データ音声分類（長さ16000）で、事前処理特徴量を用いたベースラインを上回る。
記憶ダイナミクス（A）と時間スケール（Δt）の両方を学習すると、固定 A のベースラインより大幅な性能向上を示し、パラメータ負荷は最小。
構造化 A 行列（準分離可能）は線形時間の MVM と効率的な Krylov 計算を可能にし、長期依存の訓練を実現可能にする。
アブレーション実験では、ランダム A は性能を劣化させる一方、A と Δt の最適化は一貫した改善をもたらし、記憶設計と memorization 理論を結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。