QUICK REVIEW

[논문 리뷰] Vision-LSTM: xLSTM as Generic Vision Backbone

Benedikt Alkin, Maximilian Beck|arXiv (Cornell University)|2024. 06. 06.

Infrared Target Detection Methodologies인용 수 20

한 줄 요약

Vision-LSTM (ViL) 은 xLSTM 아키텍처를 시각에 적용하여 패치 토큰을 교대로 탐색 방향으로 처리하는 mLSTM 블록으로 구성된 구조를 도입하며, 일반 백본으로서 선형에 가까운 복잡도와 ImageNet, ADE20K, 및 VTAB-1K에서 경쟁력 있는 결과를 보임.

ABSTRACT

Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture - the xLSTM - which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.

연구 동기 및 목표

자연어 모델링용으로 원래 설계된 xLSTM 아키텍처를 기반으로 한 컴퓨터 비전용 일반 백본을 모티브로 탐구한다.
이미지 패치 토큰을 교대 탐색 방향으로 처리하도록 xLSTM을 적응시켜 비-autoregressive 비전 입력을 다룬다.
ViL을 ImageNet-1K 프리트레이닝, ADE20K 의미 분할, 및 VTAB-1K 전이 분류에 대해 평가하여 기존 백본과의 경쟁력을 확인한다.

제안 방법

이미지를 중복되지 않는 패치로 분할하고 선형적으로 투영하여 학습 가능한 위치 임베딩을 갖는 패치 토큰을 얻는다.
ViL 을 교대 mLSTM 블록의 스택으로 구성한다; 홀수 블록은 패치 토큰을 왼쪽 위에서 오른쪽 아래로 순회하고, 짝수 블록은 오른쪽 아래에서 왼쪽 위로 순회한다.
각 mLSTM 블록 내에서 공분산 업데이트가 있는 행렬 메모리를 사용하고 계산을 완전히 병렬화 가능하게 허용한다.
분류는 첫 번째와 마지막 패치 토큰의 양측 연결(Bilateral concatenation)으로 수행하며 CLS 토큰은 의무가 아니다.
안정성과 정확도를 위해 시각에 맞게 causal 1D conv를 2D conv로 대체하고 투영 및 layernorm 에 편향 포함 여부를 선택적으로 적용한다.

Figure 1: Schematic overview of Vision-LSTM (ViL). Following ViT [ 18 ] , an input image is split into patches and linearly projected. Then, a learnable vector is added per position to the patches, producing a sequence of patch tokens. This sequence is then processed by alternating mLSTM blocks wher

실험 결과

연구 질문

RQ1xLSTM 기반 블록이 언어 모델링을 넘어 시각 작업을 위한 일반 백본으로 작동할 수 있는가?
RQ2얼마나 방향성, 파라미터 공유, 풀링/분류 설계 등과 같은 아키텍처 디자인 선택이 표준 시각 벤치마크에서 ViL의 성능에 가장 큰 영향을 주는가?
RQ3또한 ViL은 최적화된 ViT 및 시각 백본과 비교하여 ImageNet-1K, ADE20K 및 VTAB-1K에서 어떤 성능을 보이는가?
RQ4다른 백본과 비교하여 ViL의 계산 특성(FLOPs, 런타임)은 규모에 따라 어떠한가?

주요 결과

ViL은 ImageNet-1K 프리트레이닝에서 경쟁력 있는 성능을 달성하며, 작은 및 매우 작은 규모에서 여러 최적화된 ViT 프로토콜 보다 우수하고, 더 큰 규모에서도 강력한 모습을 유지한다.
ADE20K에서 ViL-S 및 ViL-B가 다수의 베이스라인보다 더 높은 mIoU와 ACC를 달성하며, ViL-B가 일부 DeiT 변형과 일치하거나 능가한다.
VTAB-1K 전이에서 ViL은 자연, 특수 및 구조화된 데이터셋 전체 평균에서 다수의 베이스라인을 능가하며, 구조화된 데이터에서 특히 강력한 모습을 보인다.
양방향 교대 블록 설계가 다방향 블록에 비해 계산 효율성을 유지하면서 성능을 개선하며, 사방향 변형은 상당한 런타임 비용에도 불구하고 더 높은 정확도를 제공한다.
분류 설계는 풀링 전략에 강건하며, Bilateral Concat(첫 토큰+마지막 토큰)은 CLS 토큰에 의존하지 않고도 강력한 성능을 보인다.

Figure 2: Performance overview of ImageNet-1K pre-trained models in relation to pre-training compute. ViL shows strong performances across classification and semantic segmentation tasks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.