[논문 리뷰] Sequencer: Deep LSTM for Image Classification
Sequencer는 ViT의 대안으로 LSTM 기반 아키텍처를 제안하며, 54M 매개변수를 가진 2D Sequencer2D-L 변형을 포함해 ImageNet-1K에서 84.6% top-1를 달성합니다.
In recent computer vision research, the advent of the Vision Transformer (ViT) has rapidly revolutionized various architectural design efforts: ViT achieved state-of-the-art image classification performance using self-attention found in natural language processing, and MLP-Mixer achieved competitive performance using simple multi-layer perceptrons. In contrast, several studies have also suggested that carefully redesigned convolutional neural networks (CNNs) can achieve advanced performance comparable to ViT without resorting to these new ideas. Against this background, there is growing interest in what inductive bias is suitable for computer vision. Here we propose Sequencer, a novel and competitive architecture alternative to ViT that provides a new perspective on these issues. Unlike ViTs, Sequencer models long-range dependencies using LSTMs rather than self-attention layers. We also propose a two-dimensional version of Sequencer module, where an LSTM is decomposed into vertical and horizontal LSTMs to enhance performance. Despite its simplicity, several experiments demonstrate that Sequencer performs impressively well: Sequencer2D-L, with 54M parameters, realizes 84.6% top-1 accuracy on only ImageNet-1K. Not only that, we show that it has good transferability and the robust resolution adaptability on double resolution-band.
연구 동기 및 목표
- 셀프 어텐션을 넘어 컴퓨터 비전에서의 귀납적 편향 탐구를 동기화한다.
- 이미지 분류를 위한 심층 LSTM 아키텍처인 Sequencer를 소개한다.
- 세로 및 가로 LSTM으로 긴 범위 의존성을 포착하는 2D Sequencer 모듈을 제안한다.
- ImageNet-1K에서 경쟁력 있는 성능을 보이고 전이 가능성과 해상도 강건성에 대해 논의한다.
제안 방법
- 셀프 어텐션 대신 LSTM으로 긴 범위 의존성을 모델링한다.
- 향상된 성능을 위해 2D Sequencer(Sequencer2D)에서 LSTM을 수직 및 수평 구성요소로 분해한다.
- ImageNet-1K에서 84.6% top-1을 달성하는 54M 매개변수를 가진 모델 변형 Sequencer2D-L를 보고한다.
- 데이터셋 간 전이 가능성과 이중 해상도 밴드 입력에 대한 강건성을 평가한다.
실험 결과
연구 질문
- RQ1LSTM 기반 아키텍처가 이미지 분류 작업에서 Vision Transformer 및 MLP-Mixer와 경쟁할 수 있는가?
- RQ2수직 및 수평 LSTM을 갖춘 2D Sequencer 모듈이 일반 LSTM보다 이미지 분류에서 성능을 향상시키는가?
- RQ3표준 벤치마크에서 Sequencer 모델의 전이 가능성과 해상도 적응성 특성은 무엇인가?
- RQ4ImageNet-1K에서 Sequencer2D-L의 매개변수 수와 정확도 간의 트레이드오프는 무엇인가?
주요 결과
- Sequencer는 이미지 분류에서 ViT에 대한 효과적인 LSTM 기반 대안을 제공합니다.
- Sequencer2D-L은 54M 매개변수로 ImageNet-1K에서 84.6% top-1 정확도를 달성합니다.
- 모델은 이중 해상도 대역 입력에서도 양호한 전이 가능성과 강건한 성능을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.