Skip to main content
QUICK REVIEW

[논문 리뷰] Perceiver: General Perception with Iterative Attention

Andrew Jaegle, Felix Gimeno|arXiv (Cornell University)|2021. 03. 04.
Neural dynamics and brain function참고 문헌 91인용 수 128
한 줄 요약

Perceiver는 cross-attention bottleneck을 작은 잠재 배열로 축소하고 반복적인 잠재 자기-주의를 사용하여 매우 크고 다중 모달 입력에 확장 가능한 Transformer 기반 아키텍처를 제시하며, 모달리티 특정 프라이어 없이 이미지, 오디오, 비디오 및 포인트 클라우드 전반에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

Biological systems perceive the world by simultaneously processing high-dimensional inputs from modalities as diverse as vision, audition, touch, proprioception, etc. The perception models used in deep learning on the other hand are designed for individual modalities, often relying on domain-specific assumptions such as the local grid structures exploited by virtually all existing vision models. These priors introduce helpful inductive biases, but also lock models to individual modalities. In this paper we introduce the Perceiver - a model that builds upon Transformers and hence makes few architectural assumptions about the relationship between its inputs, but that also scales to hundreds of thousands of inputs, like ConvNets. The model leverages an asymmetric attention mechanism to iteratively distill inputs into a tight latent bottleneck, allowing it to scale to handle very large inputs. We show that this architecture is competitive with or outperforms strong, specialized models on classification tasks across various modalities: images, point clouds, audio, video, and video+audio. The Perceiver obtains performance comparable to ResNet-50 and ViT on ImageNet without 2D convolutions by directly attending to 50,000 pixels. It is also competitive in all modalities in AudioSet.

연구 동기 및 목표

  • 모달리티별 프라이어를 최소화하는 일반적인 지각 아키텍처를 목표로 한다.
  • Attention을 확장하여 고차원 입력을 작은 잠재 병목으로 투영하는 Perceiver를 도입한다.
  • 2D 컨볼루션이나 도메인 특화 프라이어 없이 다양한 모달리티에서 경쟁력 있는 성능을 보여준다.
  • 대용량 입력으로부터 깊은 표현을 가능하게 하는 반복적 교차-주의 및 잠재 자기-주의를 보여준다.

제안 방법

  • 고차원 입력 바이트 배열을 고정 크기 잠재 배열(N << M)로 매핑하기 위해 교차-주의 모듈을 사용한다.
  • 잠재 공간에서 깊은 Transformer로 잠재 배열을 처리한다(복잡도 ~ O(N^2)).
  • 입력 표현을 정제하기 위해 교차-주의와 잠재 자기-주의 블록을 반복적으로 교대한다.
  • 효율성을 개선하고 심층 아키텍처를 가능하게 하기 위해 교차-주의 모듈과 잠재 Transformer 블록 간의 가중치를 공유한다.
  • 공간/시간 구조를 유지하기 위해 각 입력 원소에 위치/모달리티 정보를 확장 가능한 Fourier 특징 또는 학습 인코딩을 부여한다.
  • 정보 추출을 개선하기 위해 여러 개의 교차-주의 레이어를 선택적으로 사용할 수 있다.

실험 결과

연구 질문

  • RQ1주요하게 모달리티에 구애받지 않는 Transformer 기반 아키텍처가 시각, 오디오, 비디오 및 포인트 클라우드에서 경쟁력 있는 지각 성능을 달성할 수 있는가?
  • RQ2비대칭 교차-주의 병목이 수만 개의 입력으로의 확장을 가능하게 하면서 정확도를 유지하는가?
  • RQ3Fourier 기반 위치 인코딩이 모달리티 간 성능 및 순열 강인성에 어떤 영향을 미치는가?
  • RQ4교차-주의 깊이와 잠재 Transformer 깊이 사이의 트레이드오프는 무엇이며, 가중치 공유가 효율성과 정확성에 어떤 영향을 주는가?
  • RQ5Perceiver가 ImageNet, AudioSet 및 ModelNet40에서 전문화된 아키텍처(예: ResNet-50, ViT)에 비해 어떠한 성능을 보이는가?

주요 결과

ModelInputTop-1 (ImageNet)
ResNet-50 (FF)RGB + Fourier features73.5
ViT-B-16 (FF)RGB + Fourier features76.7
Transformer (64x64, FF)64x64 downsampled inputs57.0
Perceiver (FF)Input pixels with Fourier features78.0
Perceiver (Learned pos.)Input pixels with learned pos.70.9
  • 2D 컨볼루션 없이도 ImageNet Top-1 정확도에서 경쟁력 있는 성능을 달성하며 입력 픽셀은 50,176이다.
  • 원시 오디오, 비디오 또는 둘 다를 사용한 AudioSet에서 강력한 성능을 달성한다.
  • ModelNet-40 포인트 클라우드 분류에서도 경쟁력 있는 결과를 시연한다.
  • 잠재 병목을 통해 입력 크기와 깊이를 분리하여 매우 깊은 모델을 가능하게 하며 전체 복잡도는 O(MN + LN^2)이다.
  • 교차-주의 및 Transformer 블록 간 가중치 공유로 매개변수를 약 10배 감소시키고 일반화 성능을 향상시킨다.
  • Fourier 특징 위치 인코딩은 모델이 고정된 아키텍처 프라이어 없이도 공간/시간 구조를 유지하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.