QUICK REVIEW

[論文レビュー] Conditional Positional Encodings for Vision Transformers

Xiangxiang Chu, Zhi Tian|arXiv (Cornell University)|Feb 22, 2021

Advanced Neural Network Applications参考文献 28被引用数 404

ひとこと要約

本論文は、Position Encoding Generator (PEG) によって生成され、局所的な画像近傍に条件づけられた条件付き位置エンコードを提案する。これにより CPVT はより長い入力へ一般化し、固定または学習可能な絶対エンコードよりも平移等価性と全体的な性能を向上させる。

ABSTRACT

We propose a conditional positional encoding (CPE) scheme for vision Transformers. Unlike previous fixed or learnable positional encodings, which are pre-defined and independent of input tokens, CPE is dynamically generated and conditioned on the local neighborhood of the input tokens. As a result, CPE can easily generalize to the input sequences that are longer than what the model has ever seen during training. Besides, CPE can keep the desired translation-invariance in the image classification task, resulting in improved performance. We implement CPE with a simple Position Encoding Generator (PEG) to get seamlessly incorporated into the current Transformer framework. Built on PEG, we present Conditional Position encoding Vision Transformer (CPVT). We demonstrate that CPVT has visually similar attention maps compared to those with learned positional encodings and delivers outperforming results. Our code is available at https://github.com/Meituan-AutoML/CPVT .

研究の動機と目的

Vision Transformer における固定または学習可能な絶対位置エンコードの制限を動機づけて対処する。
PEG を用いた動的で入力条件付きの位置エンコード方式（CPE）を提案する。
Conditional Position encoding Vision Transformer（CPVT）を構築し、性能と一般化の向上を示す。
CPE が平移等価性を保持し、高解像度入力や下流タスクへのスケール性を持つことを示す。

提案手法

入力トークンの局在2-D近傍に条件づけられた Positional Encoding Generator (PEG) を導入する。
カーネル k を用いた適切なパディングを伴う2-D畳み込みとして PEG を実装し、E^{B×H×W×C} のエンコードを生成する。
ViT/DeiT の設計に従って Vision Transformer に CPE を組み込み CPVT を形成し、CPVT-Ti、CPVT-S、CPVT-B 変種を含む。
翻訳不変な分類のためにクラス・トークンをグローバル平均プーリングに置換する CPVT-GAP を探求する。
実験的に高解像度への一般化を評価し、学習可能な絶対エンコーディングおよび相対エンコーディングと比較する。
高精度を達成しつつ PEG のパラメータ数および FLOP のオーバーヘッドが低いことを示す。

実験結果

リサーチクエスチョン

RQ1局所的な近傍に条件づけられた条件付き位置エンコードは、固定または学習可能な絶対エンコードより Vision Transformer の性能を改善できるか？
RQ2CPVT モデルはより長い入力列へ一般化し、平移等価性の挙動を維持できるか？
RQ3GAP 対クラス・トークンを含む場合を含め、PEG を用いた CPVT が異なるモデル規模と解像度でどのように性能を発揮するか？
RQ4標準的な位置エンコードに対するPEG のパラメータ/計算オーバーヘッドはどれくらいか？
RQ5CPVT はピラミッド型トランスフォーマーのアーキテクチャやセグメンテーション、検出といった下流タスクを改善できるか？

主な発見

CPVT は ImageNet top-1 精度で、固定または学習可能な絶対位置エンコードを使用した従来の Vision Transformer を上回る。
PEG は最小限のパラメータオーバーヘッドを導入（例: k=3, l=1 の CPVT-Ti で 1,728 パラメータ）し、FLOPs の影響はごくわずか。
CPVT はより高い入力解像度へ直接一般化を可能にする（例: 384×384 で CPVT-Ti は 74.2% に改善、224×224 の 73.4% から）。
CPVT-GAP はさらに性能を高め、実験で vision transformer の中で最先端の性能を達成（例: CPVT-Ti-GAP 74.9% top-1、GAP 使用）。
早期エンコーダブロック内に配置された PEG は高い性能を生み出し、0–5 の PEG 配置がしばしば最大化される。
CPVT は平移等価性の利点を示し、PEG 使用時には PVT や Swin のようなピラミッド型アーキテクチャ全体でより良い性能を示す。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。