QUICK REVIEW

[論文レビュー] Vision Transformers with Hierarchical Attention

Yun Liu, Yuhuan Wu|arXiv (Cornell University)|Jun 6, 2021

Visual Attention and Saliency Detection被引用数 18

ひとこと要約

本稿では、局所的関係を小さな画像パッチ内で最初にモデル化し、その後に統合されたより大きなパッチ間のグローバルな依存関係をモデル化する二段階の階層的アプローチで自己注意を計算する、新しいメカニズムである階層的マルチヘッド自己注意（H-MHSA）を提案する。各段階でトークンの数を制限することで、H-MHSAは計算コストとメモリ使用量を顕著に削減しながらも、細粒度の詳細を保持する。これにより、HAT-Netファミリーは画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションの各タスクで最先端の性能を達成できる。

ABSTRACT

This paper tackles the high computational/space complexity associated with Multi-Head Self-Attention (MHSA) in vanilla vision transformers. To this end, we propose Hierarchical MHSA (H-MHSA), a novel approach that computes self-attention in a hierarchical fashion. Specifically, we first divide the input image into patches as commonly done, and each patch is viewed as a token. Then, the proposed H-MHSA learns token relationships within local patches, serving as local relationship modeling. Then, the small patches are merged into larger ones, and H-MHSA models the global dependencies for the small number of the merged tokens. At last, the local and global attentive features are aggregated to obtain features with powerful representation capacity. Since we only calculate attention for a limited number of tokens at each step, the computational load is reduced dramatically. Hence, H-MHSA can efficiently model global relationships among tokens without sacrificing fine-grained information. With the H-MHSA module incorporated, we build a family of Hierarchical-Attention-based Transformer Networks, namely HAT-Net. To demonstrate the superiority of HAT-Net in scene understanding, we conduct extensive experiments on fundamental vision tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Therefore, HAT-Net provides a new perspective for vision transformers. Code and pretrained models are available at https://github.com/yun-liu/HAT-Net.

研究の動機と目的

画像パッチによる長いシーケンス長が原因で、従来のビジョントランスフォーマーにおけるマルチヘッド自己注意（MHSA）の計算・メモリ複雑性を軽減すること。
細粒度の空間的詳細を損なわず、ビジョントランスフォーマーで局所的およびグローバルな依存関係を効率的にモデル化すること。
多様なビジョンベンチマークで既存手法を上回る、柔軟で効率的かつスケーラブルなトランスフォーマー・アーキテクチャを設計すること。
画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションの包括的実験を通じて、階層的注意の有効性を示すこと。

提案手法

入力画像がパッチに分割され、それぞれがトークンとして扱われ、自己注意計算の初期シーケンスを形成する。
小さなパッチグリッド内での局所的自己注意が計算され（パラメータG1で制御）、細粒度の局所的関係が捉えられる。
小さなパッチがダウンサンプリングによってより大きなパッチに統合され（パラメータG2で制御）、グローバルな自己注意計算のためのトークン数が削減される。
統合された粗いトークンに対してグローバルな自己注意が適用され、画像全体にわたる長距離依存関係がモデル化される。
局所的およびグローバルな注意特徴が連結され、集約され、多スケール表現を豊かに持つ最終特徴が生成される。
H-MHSAモジュールは、効率性とパフォーマンスを高めるために、深度可分畳み込みとSiLU活性化関数を用いるHAT-Netと呼ばれるネットワークファミリーに統合される。

実験結果

リサーチクエスチョン

RQ1階層的注意メカニズムは、性能を維持または向上させつつ、ビジョントランスフォーマーの計算コストを効果的に低減できるか？
RQ2階層的なアプローチで局所的およびグローバルな注意を組み合わせることで、ビジョントランスフォーマーにおける特徴表現にどのような影響を与えるか？
RQ3H-MHSAは、窓ベースやダウンサンプリングベースのアプローチと比較して、下流のビジョンタスクでどの程度優れた性能を示すか？
RQ4精度と効率のバランスを最適化するための、局所グリッドサイズ（G1）とダウンサンプリングレート（G2）の最適な設定は何か？

主な発見

HAT-NetにH-MHSAを適用した場合、300エポックの訓練条件下でImageNet-1Kで82.6%のtop-1精度を達成し、同じ条件でPVTを上回った。
HAT-Net-Smallは、ADE20Kにおけるセマンティックセグメンテーションで45.7%のmIoUを達成し、タスク間での優れた一般化性能を示した。
MS-COCOにおけるオブジェクト検出では、HAT-Net-Smallが45.7%のAPb、67.8%のAPb50、44.7%のAPb75を達成し、FLOPsを削減しながらも高い性能を示した。
H-MHSAは、ベースラインのトランスフォーマーと比較して、画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションの全タスクで性能を向上させた。
GELUからSiLU活性化関数に切り替えることで、GPUメモリ使用量を23.8GBから20.2GBに削減しながら、性能を維持またはわずかに向上させた。
G1 = 8,8,8およびG2 = 16,8,4のデフォルト設定は、多様な環境において精度と計算効率の良好なトレードオフを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。