QUICK REVIEW

[論文レビュー] Visual Transformers: Token-based Image Representation and Processing for Computer Vision

BoRui Wu, Chenfeng Xu|arXiv (Cornell University)|Jun 5, 2020

Advanced Neural Network Applications参考文献 49被引用数 377

ひとこと要約

この論文は、視覚トランスフォーマー（VTs）を導入し、畳み込みネットワークの一部をトークンベースのトランスフォーマーで置換し、コンパクトな意味的視覚トークン集合上で動作させることで、FLOPsを抑えつつ精度を高め、分類とセグメンテーションを効率的に実現する。

ABSTRACT

Computer vision has achieved remarkable success by (a) representing images as uniformly-arranged pixel arrays and (b) convolving highly-localized features. However, convolutions treat all image pixels equally regardless of importance; explicitly model all concepts across all images, regardless of content; and struggle to relate spatially-distant concepts. In this work, we challenge this paradigm by (a) representing images as semantic visual tokens and (b) running transformers to densely model token relationships. Critically, our Visual Transformer operates in a semantic token space, judiciously attending to different image parts based on context. This is in sharp contrast to pixel-space transformers that require orders-of-magnitude more compute. Using an advanced training recipe, our VTs significantly outperform their convolutional counterparts, raising ResNet accuracy on ImageNet top-1 by 4.6 to 7 points while using fewer FLOPs and parameters. For semantic segmentation on LIP and COCO-stuff, VT-based feature pyramid networks (FPN) achieve 0.35 points higher mIoU while reducing the FPN module's FLOPs by 6.5x.

研究の動機と目的

ピクセル畳み込みパラダイムを、視覚モデルにおける冗長性の根本原因として再検討する。
機能マップを小さな意味的視覚トークンへ変換するトークナイザーを提案する。
視覚トークンをトランスフォーマーを介して相互関係をモデル化する。
トークンの相互作用をピクセル空間に投影して、タスク固有の予測を行う。
分類とセグメンテーションのベンチマークで、精度向上と計算量の削減を実証する。

提案手法

入力を畳み込みで処理して低レベル特徴を学習し、次に特徴マップを小さな視覚トークン集合へトークナイズする（L << HW）。
内容依存のアテンション重みを持つトランスフォーマーを用いて視覚トークン間の相互作用をモデル化する。
トランスフォーマーの出力を再びピクセル空間へ投影して、下流タスクの特徴マップを補強する。
トークンを得るために、フィルタベースまたは再帰的（ prior tokens へのトークン依存性）を用いるトークナイザーを使用する。
VT-ResNetsはResNetsの最後の段をVTモジュールに置換し、16トークンと1024チャネルのトークン表現を用いて訓練する。
セグメンテーションでは、FPNをVT-FPNに置換して、異なる解像度のトークン相互作用を計算し、ピクセル空間へ投影する。

実験結果

リサーチクエスチョン

RQ1コンパクトな意味トークン空間上で動作するトークンベースのトランスフォーマーは、画像分類とセグメンテーションで従来のピクセル空間畳み込みを上回ることができるか。
RQ2視覚トークンは長距離意味関係のモデリングを計算コストを抑えて改善できるか。
RQ3内容認識の再帰的トークナイザーは、固定フィルタベースやプーリングベースのトークナイザーより優れているか。
RQ4トークン相互作用を特徴マップへ投影することで、ピクセルレベルの情報を保持し、タスク性能を改善できるか。

主な発見

ResNetの最後の段をVTモジュールで置換すると、最後段のFLOPsを最大6.9x削減し、ImageNetのトップ1精度を4.6〜7ポイント向上させる。
VTベースのResNetは、ベースラインと比較してはるかに少ないFLOPsと同程度または少ないパラメータで検証精度を高く達成する（例：VT-R18: 72.1% vs 69.9%の検証精度; VT-R34: 75.0% vs 73.3%）。
セグメンテーションのためのVTベースFPNは、従来のFPNモジュールより0.35ポイント高いmIoUをCOCO-stuff/LIPで達成し、FLOPsは6.4x〜6.5x削減。
16個の視覚トークンで十分で、トークン数を増やしてもほとんど利得はない。
再帰的トークナイザーとトランスフォーマーによるトークン相互作用は、トークン関係のプーリング、クラスタリング、またはグラフ畳み込み法より優れている。
トークンを特徴マップへ投影することは性能向上に有益であり、空間情報を保持する必要性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。