[論文レビュー] Sequencer: Deep LSTM for Image Classification
Sequencer は ViT の代替として LSTM ベースのアーキテクチャを提案し、54M パラメータの 2D Sequencer2D-L 変種を含み、ImageNet-1K で top-1 84.6% を達成します。
In recent computer vision research, the advent of the Vision Transformer (ViT) has rapidly revolutionized various architectural design efforts: ViT achieved state-of-the-art image classification performance using self-attention found in natural language processing, and MLP-Mixer achieved competitive performance using simple multi-layer perceptrons. In contrast, several studies have also suggested that carefully redesigned convolutional neural networks (CNNs) can achieve advanced performance comparable to ViT without resorting to these new ideas. Against this background, there is growing interest in what inductive bias is suitable for computer vision. Here we propose Sequencer, a novel and competitive architecture alternative to ViT that provides a new perspective on these issues. Unlike ViTs, Sequencer models long-range dependencies using LSTMs rather than self-attention layers. We also propose a two-dimensional version of Sequencer module, where an LSTM is decomposed into vertical and horizontal LSTMs to enhance performance. Despite its simplicity, several experiments demonstrate that Sequencer performs impressively well: Sequencer2D-L, with 54M parameters, realizes 84.6% top-1 accuracy on only ImageNet-1K. Not only that, we show that it has good transferability and the robust resolution adaptability on double resolution-band.
研究の動機と目的
- 自己注意を超えた帰納バイアスをコンピュータビジョンで探求する動機づけ。
- 画像分類のための深い LSTM アーキテクチャ Sequencer を紹介する。
- 縦方向および横方向の LSTM を組み合わせた 2D Sequencer モジュールを提案し、長距離依存を捉える。
- ImageNet-1K で競争力のある性能を示し、転移性と解像度の頑健性について議論する。
提案手法
- 自己注意の代わりに LSTM を用いて長距離依存をモデル化する。
- 2D Sequencer(Sequencer2D)で LSTM を縦方向と横方向の成分に分解し、性能を向上させる。
- 54M パラメータをもち ImageNet-1K で top-1 84.6% を達成するモデル変種(Sequencer2D-L)を報告する。
- データセット間の転移性と二倍解像度バンド入力への頑健性を評価する。
実験結果
リサーチクエスチョン
- RQ1LSTM ベースのアーキテクチャは image classification タスクで Vision Transformers および MLP-Mixer と競えるか?
- RQ2縦方向と横方向の LSTM を組み合わせた 2D Sequencer モジュールは、平凡な LSTM より画像分類の性能を改善するか?
- RQ3標準的なベンチマークにおける Sequencer モデルの転移性と解像度適応性の特性は何か?
- RQ4ImageNet-1K における Sequencer2D-L のパラメータ数と精度のトレードオフは何か?
主な発見
- Sequencer は画像分類における ViT への効果的な LSTM ベースの代替手段を提供する。
- Sequencer2D-L は 54M パラメータで ImageNet-1K において top-1 精度 84.6% を達成する。
- このモデルは高い転移性と、二倍解像度バンド入力での頑健な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。