QUICK REVIEW

[論文レビュー] Scalable Visual Transformers with Hierarchical Pooling

Zizheng Pan, Bohan Zhuang|arXiv (Cornell University)|Mar 19, 2021

Advanced Neural Network Applications参考文献 47被引用数 28

ひとこと要約

本稿では、階層的特徴学習を模倣するように、視覚的トークンの順序長と計算コストを段階的に低減するスケーラブルなビジョントランスフォーマー・アーキテクチャである階層的ビジョントランスフォーマー（HVT）を提案する。FLOPsを増加させることなく高いモデル容量を維持することで、ベースラインと同等のFLOPsでImageNetおよびCIFAR-100で最先端の性能を達成する。

ABSTRACT

The recently proposed Visual image Transformers (ViT) with pure attention have achieved promising performance on image recognition tasks, such as image classification. However, the routine of the current ViT model is to maintain a full-length patch sequence during inference, which is redundant and lacks hierarchical representation. To this end, we propose a Hierarchical Visual Transformer (HVT) which progressively pools visual tokens to shrink the sequence length and hence reduces the computational cost, analogous to the feature maps downsampling in Convolutional Neural Networks (CNNs). It brings a great benefit that we can increase the model capacity by scaling dimensions of depth/width/resolution/patch size without introducing extra computational complexity due to the reduced sequence length. Moreover, we empirically find that the average pooled visual tokens contain more discriminative information than the single class token. To demonstrate the improved scalability of our HVT, we conduct extensive experiments on the image classification task. With comparable FLOPs, our HVT outperforms the competitive baselines on ImageNet and CIFAR-100 datasets.

研究の動機と目的

推論中に完全なパッチ系列を維持するための標準的ViTモデルの非効率性を是正すること。
計算複雑性を増加させることなく、深さ、幅、解像度、パッチサイズのスケーリングを可能にするモデルの拡張性を実現すること。
より判別力の高いプールド視覚的トークンで、もしくはそれらを補完することで、特徴表現を向上させること。
既存手法と同等のFLOPsで、階層的プーリングを用いたViTがより優れた性能を達成できることを示すこと。

提案手法

空間的次元に沿って平均プーリングを適用することで、視覚的トークンの順序長を段階的に低減する階層的プーリング層を導入し、CNNのダウンサンプリングに類似させる。
空間的次元にわたる平均プーリングを適用して順序を圧縮し、計算コストを低減しながらも判別力のある特徴を保持する。
単一のクラストークンに代わって、もしくはそれらを補完して、より判別力の高い情報を持つプールド視覚的トークンを導入する。
複数の段階のプーリングを異なる解像度で適用する階層的アーキテクチャを設計し、マルチスケール表現を構築する。
深さ、幅、解像度をスケーリングすることで高いモデル容量を維持するが、短くなった順序長のおかげでFLOPsの増加を防ぐ。

実験結果

リサーチクエスチョン

RQ1ビジョントランスフォーマーにおける階層的プーリングは、性能を損なわせることなく順序長と計算コストを低減できるか？
RQ2プールド視覚的トークンでクラストークンを置き換えるまたは補完することで、特徴の判別力が向上するか？
RQ3深さ、幅、解像度、パッチサイズのスケーリングをFLOPsの増加なしに実現できるか？
RQ4標準的なベンチマークにおいて、提案されたHVTはSOTAのViTおよびCNNベースラインと比較して、精度とFLOPsの両面で優れているか？

主な発見

同等のFLOPsで、HVTはImageNetデータセットにおいて競合するベースラインを上回り、スケーラビリティと精度の向上を示している。
CIFAR-100でも同等のFLOPsで最先端の性能を達成しており、小規模なデータセットに対しても有効性が確認された。
実験的に、平均プールド視覚的トークンは単一のクラストークンよりもより判別力のある情報を含んでいることが示された。これは設計選択の妥当性を支持する。
階層的プーリング機構により、順序長の短縮のおかげで、計算コストを増加させることなく、深さ、幅、解像度、パッチサイズのスケーリングが可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。