Skip to main content
QUICK REVIEW

[論文レビュー] Vision-LSTM: xLSTM as Generic Vision Backbone

Benedikt Alkin, Maximilian Beck|arXiv (Cornell University)|Jun 6, 2024
Infrared Target Detection Methodologies被引用数 20
ひとこと要約

Vision-LSTM (ViL) は vision に xLSTM アーキテクチャを適用し、パッチトークンを行ごとに反対方向に処理する交互の mLSTM ブロックを使用して、一般的なバックボーンとしての直線的な計算量に近い複雑さを持ち、ImageNet、ADE20K、VTAB-1K で競争力のある成果を示します。

ABSTRACT

Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture - the xLSTM - which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.

研究の動機と目的

  • xLSTM アーキテクチャを元々言語モデリング用に設計したものとして、視覚タスクのための一般的なバックボーンを動機づけ・探索する。
  • xLSTM を視覚に適応させ、非自己回帰的な視覚入力を扱うためにパッチトークンを交互に走査する方向で処理する。
  • ImageNet-1K 事前学習、ADE20K セマンティブセグメンテーション、VTAB-1K 転移分類で ViL を評価し、既存のバックボーンと競合するかを検討する。

提案手法

  • 画像を非重複パッチに分割し、それらを線形投影して学習可能な位置エンベディングを得る。
  • ViL を交互の mLSTM ブロックのスタックとして構築する。奇数ブロックはパッチトークンを左上から右下へ走査し、偶数ブロックは右下から左上へ走査する。
  • 各 mLSTM ブロック内で共分散更新を伴うマトリクスメモリを使用し、完全に並列計算が可能な設計とする。
  • 分類は最初と最後のパッチトークンを bilateral に結合(CLS_token を必須としない)。
  • 視覚向けに causal な 1D 畳み込みを 2D 畳み込みへ置換し、安定性と精度の向上を目的として投影と層正規化でバイアスを含めることを選択できる。
Figure 1: Schematic overview of Vision-LSTM (ViL). Following ViT [ 18 ] , an input image is split into patches and linearly projected. Then, a learnable vector is added per position to the patches, producing a sequence of patch tokens. This sequence is then processed by alternating mLSTM blocks wher
Figure 1: Schematic overview of Vision-LSTM (ViL). Following ViT [ 18 ] , an input image is split into patches and linearly projected. Then, a learnable vector is added per position to the patches, producing a sequence of patch tokens. This sequence is then processed by alternating mLSTM blocks wher

実験結果

リサーチクエスチョン

  • RQ1xLSTM ベースのブロックは言語モデリング以外の視覚タスクの一般的なバックボーンとして機能し得るか。
  • RQ2ViL の標準的な視覚ベンチマークで最高の性能を引き出す設計上の選択肢(方向性、パラメータ共有、プーリング/分類設計)は何か。
  • RQ3ViL は ImageNet-1K、ADE20K、VTAB-1K で、最適化された ViT や視覚バックボーンと比較してどうなるか。
  • RQ4ViL の計算特性(FLOPs、実行時間)は他のバックボーンと比較してスケールごとにどのようか。

主な発見

  • ViL は ImageNet-1K の事前学習結果で競争力を示し、小規模・ミニマムスケールでいくつかの最適化済み ViT プロトコルを上回り、より大規模なスケールでも強い性能を維持する。
  • ADE20K では ViL-S および ViL-B が複数のベースラインより高い mIoU と ACC を達成し、ViL-B は DeiT 系の一部と同等または上回る。
  • VTAB-1K 転移では ViL が自然データ・専門データ・構造化データの平均で複数のベースラインを上回り、特に構造化データで強みを示す。
  • 双方向の交互ブロック設計は、複数方向ブロックに比べて計算効率を維持しつつ性能を向上させる。四方向ブロックは精度を高める一方で実行時間コストが大きい。
  • 分類設計はプーリング戦略に対して堅牢であり、Bilaterial Concat(最初と最後のトークンの結合)は CLS トークンに依存せずに強力な結果を出す。
Figure 2: Performance overview of ImageNet-1K pre-trained models in relation to pre-training compute. ViL shows strong performances across classification and semantic segmentation tasks.
Figure 2: Performance overview of ImageNet-1K pre-trained models in relation to pre-training compute. ViL shows strong performances across classification and semantic segmentation tasks.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。