QUICK REVIEW

[論文レビュー] Do We Really Need Explicit Position Encodings for Vision Transformers

Xiangxiang Chu, Bo Zhang|arXiv (Cornell University)|Feb 22, 2021

Advanced Image and Video Retrieval Techniques参考文献 38被引用数 90

ひとこと要約

本論文は、ビジョントランスフォーマーにおける固定位置符号化を置き換える、学習可能で局所的近傍に基づく位置符号化方式である条件付き位置符号化（PEG）を提案する。各トークンの空間的文脈から条件的に位置符号化を生成することで、任意の入力シーケンス長を扱えるようになり、ImageNet分類において最先端の性能を達成する。

ABSTRACT

Almost all visual transformers such as ViT or DeiT rely on predefined positional encodings to incorporate the order of each input token. These encodings are often implemented as learnable fixed-dimension vectors or sinusoidal functions of different frequencies, which are not possible to accommodate variable-length input sequences. This inevitably limits a wider application of transformers in vision, where many tasks require changing the input size on-the-fly. In this paper, we propose to employ a conditional position encoding scheme, which is conditioned on the local neighborhood of the input token. It is effortlessly implemented as what we call Position Encoding Generator (PEG), which can be seamlessly incorporated into the current transformer framework. Our new model with PEG is named Conditional Position encoding Visual Transformer (CPVT) and can naturally process the input sequences of arbitrary length. We demonstrate that CPVT can result in visually similar attention maps and even better performance than those with predefined positional encodings. We obtain state-of-the-art results on the ImageNet classification task compared with visual Transformers to date. Our code will be made available at this https URL .

研究の動機と目的

ビジョントランスフォーマーにおける固定位置符号化の制限、特にシーケンス長の柔軟性の欠如を是正すること。
ビジョントランスフォーマーにおいて、事前に定義された固定次元の正弦波的または学習可能なベクトルの必要性を排除すること。
ビジョントランスフォーマーが可変長の入力シーケンスを自然かつ効率的に処理できるようにすること。
局所的な画像特徴に依存する文脈に適応した空間的条件下の位置符号化メカニズムを開発すること。
入力サイズの柔軟性を保ちながら、ImageNet分類で最先端の性能を達成すること。

提案手法

各入力トークンの局所的空間的近傍に基づいて位置符号化を計算する位置符号化生成器（PEG）を提案する。
各トークンの周囲の特徴マップに条件づけられた位置埋め込みを生成する、小さな畳み込みネットワークを用いる。
生成された位置符号化をビジョントランスフォーマーの自己注意機構に直接統合する。
標準的な学習可能または正弦波的の位置符号化をPEGによって生成された埋め込みに置き換えることで、動的シーケンス長処理を可能にする。
PEGモジュールをトランスフォーマーの他の部品とエンドツーエンドで同時に学習する。
固定された位置ベクトルに依存せず、局所的文脈に依存することで、任意の入力サイズでの推論を可能にする。

実験結果

リサーチクエスチョン

RQ1事前に定義されたものではなく、局所的な画像特徴から動的に位置符号化を生成することは可能か？
RQ2文脈依存の位置符号化方式は、ビジョントランスフォーマーにおいて固定位置符号化を上回る性能を示せるか？
RQ3条件付き位置符号化を備えたトランスフォーマーは、性能の低下を伴わずに可変長の入力シーケンスを処理できるか？
RQ4固定位置埋め込みを一切使用せずに、ImageNetで最先端の精度を達成することは可能か？
RQ5PEGと従来の位置符号化手法との間で、注意マップやモデル挙動にはどのような差異があるか？

主な発見

PEGを搭載したCPVTモデルは、ImageNet分類ベンチマークで最先端の性能を達成し、以前のビジョントランスフォーマーを上回った。
CPVTは、事前に定義された位置符号化を備えたモデルと同様の視覚的類似性を持つ注意マップを生成しており、特徴の局所化が同等であることを示している。
PEGを搭載したモデルは、さまざまな入力サイズにおいても強力な性能を維持しており、シーケンス長の柔軟性が裏付けられた。
条件付き位置符号化メカニズムにより、標準的なビジョントランスフォーマーの主要な制限を克服し、任意長の入力シーケンスのシームレスな処理が可能になった。
アブレーションスタディにより、PEGが有効で汎用的であることが確認され、固定位置符号化ベースラインに対して一貫した改善が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。