QUICK REVIEW

[論文レビュー] VOLO: Vision Outlooker for Visual Recognition

Yuan, Li, Qibin Hou|arXiv (Cornell University)|Jun 24, 2021

Advanced Neural Network Applications参考文献 79被引用数 23

ひとこと要約

この論文では、微細な特徴をより効果的に符号化できる軽量で効率的なアウトラックアテンションメカニズムに、標準的な自己注意機構を置き換える新しいビジョントランスフォーマー・アーキテクチャ、VOLO（Vision Outlooker）を紹介する。微細な特徴の符号化とグローバルな依存関係のモデリングを組み合わせることで、追加データなしでImageNet-1Kで87.1%のトップ1精度を達成し、新たなSOTAを樹立し、CNNや従来のトランスフォーマーを上回る性能を発揮する。

ABSTRACT

Visual recognition has been dominated by convolutional neural networks (CNNs) for years. Though recently the prevailing vision transformers (ViTs) have shown great potential of self-attention based models in ImageNet classification, their performance is still inferior to that of the latest SOTA CNNs if no extra data are provided. In this work, we try to close the performance gap and demonstrate that attention-based models are indeed able to outperform CNNs. We find a major factor limiting the performance of ViTs for ImageNet classification is their low efficacy in encoding fine-level features into the token representations. To resolve this, we introduce a novel outlook attention and present a simple and general architecture, termed Vision Outlooker (VOLO). Unlike self-attention that focuses on global dependency modeling at a coarse level, the outlook attention efficiently encodes finer-level features and contexts into tokens, which is shown to be critically beneficial to recognition performance but largely ignored by the self-attention. Experiments show that our VOLO achieves 87.1% top-1 accuracy on ImageNet-1K classification, which is the first model exceeding 87% accuracy on this competitive benchmark, without using any extra training data In addition, the pre-trained VOLO transfers well to downstream tasks, such as semantic segmentation. We achieve 84.3% mIoU score on the cityscapes validation set and 54.3% on the ADE20K validation set. Code is available at \url{https://github.com/sail-sg/volo}.

研究の動機と目的

ビジョントランスフォーマーと最先端のCNNの間の性能格差を、画像分類において解消すること。
ビジョントランスフォーマーが、トークン表現に微細なレベルの特徴を符号化する能力に制限を受けることの原因を特定し、解決すること。
計算複雑性を増加させずに、特徴の表現力を向上させるパラメータ効率的で軽量なアテンションメカニズムを設計すること。
微細な空間的および文脈的特徴が効果的に符号化された場合、アテンションベースのモデルがCNNを上回ることを示すこと。
ImageNet-1Kで新たなSOTAを樹立し、Semantic Segmentationなどの下流タスクへの適応性も高いことを確立すること。

提案手法

学習可能な線形射影を用いて隣接する特徴を集約することで、トークン表現を計算するアウトラックアテンションメカニズムを導入し、高価なドット積アテンションを回避する。
二段階アーキテクチャを採用：まず、画像が小さな$8\times8$パッチにトークン化され、複数のアウトラッカーによって微細な特徴の符号化が行われる。
次に、粗い$14\times14$トークン上で標準的な自己注意機構を用いてグローバルな依存関係をモデリングし、微細な特徴とグローバルな特徴を統合する。
複雑なハイブリッド設計や外部のデータオーグメンテーションを避ける、シンプルで軽量なアーキテクチャ（VOLO）を採用する。
さらに性能を向上させるために、トークンラベル付けと知識蒸留を追加の訓練技術として活用する。
段階的なスケーリング戦略を採用し、まず小規模モデルを訓練してから、VOLO-D5などの大規模バージョンに段階的にスケールアップする。

実験結果

リサーチクエスチョン

RQ1追加のトレーニングデータを使用せずに、ビジョントランスフォーマーが最先端のCNNをImageNet分類で上回ることは可能か？
RQ2CNNと比較して、ビジョントランスフォーマーが微細な視覚的特徴を捉える能力に制限を受ける要因は何か？
RQ3計算コストを増加させずに、新しいアテンションメカニズムが局所的および微細なレベルの特徴を効率的にトークン表現に符号化できるか？
RQ4微細な特徴の符号化とグローバルな自己注意機構を組み合わせることで、標準的なViTやCNNよりも優れた認識性能が得られるか？
RQ5提案されたアーキテクチャは、Semantic Segmentationなどの下流タスクに良好に一般化できるか？

主な発見

VOLO-D5は、追加データなしでImageNet-1Kで87.1%のトップ1精度を達成し、87%を超える最初のモデルである。
ImageNet-ReaLでは90.6%、ImageNet-V2では78.0%のトップ1精度を達成し、3つのベンチマークすべてで新たなSOTAを樹立した。
パラメータ数がたった296MのVOLO-D5は、NFNet-F6 や CaiT-M48 よりも大きなモデルを上回り、両者より少ないパラメータ数で性能を発揮した。
Semantic Segmentationでは、Cityscapesで84.3%のmIoU、ADE20Kで54.3%を達成し、優れた転移性を示した。
パラメータ数26.6Mの小さなVOLOモデルは、ImageNetで84.2%のトップ1精度を達成し、解像度を$384\times384$に引き上げると85.2%に向上した。
アウトラックアテンションメカニズムにより、自己注意機構よりも効率的に局所的特徴を密に動的集約でき、特徴の表現力が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。