QUICK REVIEW

[논문 리뷰] Do We Really Need Explicit Position Encodings for Vision Transformers

Xiangxiang Chu, Bo Zhang|arXiv (Cornell University)|2021. 02. 22.

Advanced Image and Video Retrieval Techniques참고 문헌 38인용 수 90

한 줄 요약

이 논문은 시각 Transformer에서 고정된 위치 인코딩을 대체하기 위해 학습 가능한, 국소적 이웃 기반의 위치 인코딩 기법인 조건부 위치 인코딩(PEG)을 제안한다. 각 토큰의 공간적 맥락에서 조건부로 위치 인코딩을 생성함으로써, PEG는 임의의 입력 시퀀스 길이를 지원하고 ImageNet 분류에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Almost all visual transformers such as ViT or DeiT rely on predefined positional encodings to incorporate the order of each input token. These encodings are often implemented as learnable fixed-dimension vectors or sinusoidal functions of different frequencies, which are not possible to accommodate variable-length input sequences. This inevitably limits a wider application of transformers in vision, where many tasks require changing the input size on-the-fly. In this paper, we propose to employ a conditional position encoding scheme, which is conditioned on the local neighborhood of the input token. It is effortlessly implemented as what we call Position Encoding Generator (PEG), which can be seamlessly incorporated into the current transformer framework. Our new model with PEG is named Conditional Position encoding Visual Transformer (CPVT) and can naturally process the input sequences of arbitrary length. We demonstrate that CPVT can result in visually similar attention maps and even better performance than those with predefined positional encodings. We obtain state-of-the-art results on the ImageNet classification task compared with visual Transformers to date. Our code will be made available at this https URL .

연구 동기 및 목표

시각 Transformer에서 고정된 위치 인코딩의 한계로 인해 시퀀스 길이의 유연성이 제한되는 문제를 해결하기 위해.
시각 Transformer에서 사전 정의된 고정 차원의 사인파 또는 학습 가능한 벡터가 필요 없도록 하기 위해.
시각 Transformer가 가변 길이 입력 시퀀스를 자연스럽고 효율적으로 처리할 수 있도록 하기 위해.
로컬 이미지 특징에 기반한 맥락 인식형이고 공간적으로 조건화된 위치 인코딩 메커니즘을 개발하기 위해.
입력 크기의 유연성을 유지하면서도 ImageNet 분류에서 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

각 입력 토큰의 국소적 공간적 이웃에 기반해 위치 인코딩을 계산하는 위치 인코딩 생성기(PEG)를 제안한다.
소형 컨볼루션 네트워크를 사용하여 각 토큰 주변의 특징 맵에 기반해 위치 임베딩을 조건부로 생성한다.
생성된 위치 인코딩을 시각 Transformer의 자기주의 메커니즘에 직접 통합한다.
표준 학습 가능한 또는 사인파 위치 인코딩을 PEG가 생성한 임베딩으로 대체함으로써 동적 시퀀스 길이 처리를 가능하게 한다.
PEG 모듈을 기존 트랜스포머 아키텍처와 함께 엔드 투 엔드로 훈련한다.
고정된 위치 벡터가 아닌 국소적 맥락에 의존함으로써 임의의 입력 크기에서 추론을 가능하게 한다.

실험 결과

연구 질문

RQ1사전에 정의된 위치 인코딩 대신 국소적 이미지 특징에서 동적으로 위치 인코딩을 생성할 수 있는가?
RQ2맥락에 따라 달라지는 위치 인코딩 기법이 시각 Transformer에서 고정된 위치 인코딩보다 우수한 성능을 낼 수 있는가?
RQ3조건부 위치 인코딩을 갖춘 트랜스포머 모델이 성능 저하 없이 가변 길이 입력 시퀀스를 처리할 수 있는가?
RQ4고정된 위치 인코딩을 사용하지 않고도 ImageNet에서 최신 기술 수준의 정확도를 달성할 수 있는가?
RQ5PEG와 기존 위치 인코딩 방법 간의 어텐션 맵과 모델 동작은 어떻게 비교되는가?

주요 결과

PEG를 적용한 제안된 CPVT 모델은 ImageNet 분류 벤치마크에서 이전의 시각 Transformer를 능가하는 최신 기술 수준의 성능을 달성한다.
CPVT는 사전 정의된 위치 인코딩을 갖춘 모델와 유사한 시각적 어텐션 맵을 생성하여 기능 국소화 능력이 유사하다는 것을 시사한다.
PEG를 적용한 모델는 다양한 입력 크기에서도 뛰어난 성능을 유지하여 시퀀스 길이의 유연성을 입증한다.
조건부 위치 인코딩 메커니즘은 표준 시각 Transformer의 핵심 제약 사항을 극복하고 임의의 길이의 입력 시퀀스를 원활하게 처리할 수 있도록 한다.
제거 실험(ablation study) 결과, PEG는 효과적이며 일반화 가능하며 고정된 위치 인코딩 기반 모델 대비 일관된 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.