Skip to main content
QUICK REVIEW

[論文レビュー] Advancing Vision Transformers with Group-Mix Attention

Chongjian Ge, Xiaohan Ding|arXiv (Cornell University)|Nov 26, 2023
Advanced Neural Network Applications被引用数 12
ひとこと要約

Group-Mix Attention (GMA) を導入して、ViTs 内のトークン間、トークン-to-グループ、グループ間の関係を捉え、より少ないパラメータで ImageNet、COCO、ADE20K で最先端の結果を達成する GroupMixFormer バックボーンを形成する。

ABSTRACT

Vision Transformers (ViTs) have been shown to enhance visual recognition through modeling long-range dependencies with multi-head self-attention (MHSA), which is typically formulated as Query-Key-Value computation. However, the attention map generated from the Query and Key captures only token-to-token correlations at one single granularity. In this paper, we argue that self-attention should have a more comprehensive mechanism to capture correlations among tokens and groups (i.e., multiple adjacent tokens) for higher representational capacity. Thereby, we propose Group-Mix Attention (GMA) as an advanced replacement for traditional self-attention, which can simultaneously capture token-to-token, token-to-group, and group-to-group correlations with various group sizes. To this end, GMA splits the Query, Key, and Value into segments uniformly and performs different group aggregations to generate group proxies. The attention map is computed based on the mixtures of tokens and group proxies and used to re-combine the tokens and groups in Value. Based on GMA, we introduce a powerful backbone, namely GroupMixFormer, which achieves state-of-the-art performance in image classification, object detection, and semantic segmentation with fewer parameters than existing models. For instance, GroupMixFormer-L (with 70.3M parameters and 384^2 input) attains 86.2% Top-1 accuracy on ImageNet-1K without external data, while GroupMixFormer-B (with 45.8M parameters) attains 51.2% mIoU on ADE20K.

研究の動機と目的

  • Vanilla Q-K-V Self-Attention が ViTs でトークン間の相関のみを単一の粒度でモデル化しているという制限を動機付け、これを克服する。
  • Group-Mix Attention (GMA) を提案し、トークン間、トークン-to-グループ、グループ間の相関を複数のグループサイズに跨ってモデル化する。
  • GMA を用いた階層的なビジョントランスフォーマー・バックボーンとして GroupMixFormer を分類・検出・セグメンテーションのタスクに活用する。
  • GMA が標準ベンチマークにおいて競争力のある、またはパラメータを削減した形で性能を改善することを示す。

提案手法

  • Q, K, V を複数のセグメントに分割し、異なるカーネルサイズの集約器を介してグループ代理表現を生成する。
  • 元のトークンとグループ代理表現の混合に対してアテンションを計算し、多粒度の相関を捉える。
  • トークン・エンSEMBLE レイヤーを用いてアテンションと非アテンション分岐の出力を融合する。
  • 集約器として深さ方向畳み込みを用い、トークンレベルの相関を保持するために任意の恒等写像を追加する。
  • 4 つの GroupMixFormer 構成(M, T, S, B, L)と 4 段階の階層バックボーンを提供する。
  • 分類には ImageNet-1K、検出/セグメンテーションには COCO(Mask R-CNN および RetinaNet)、ADE20K のセグメンテーションには UperNet および Semantic FPN で評価する。

実験結果

リサーチクエスチョン

  • RQ1Group-Mix Attention は各 Transformer エンコーダー層内でトークンとグループ間の相関を複数の粒度でモデル化できるか。
  • RQ2トークン-to-グループおよびグループ-to-グループの相互作用を取り入れると、従来の自己注意と比べて分類・検出・セグメンテーションのタスクで視覚表現が改善されるか。
  • RQ3GroupMixFormer バックボーンは ImageNet、COCO、ADE20K における精度と効率の点で最先端の ViTs や CNNs と比較してどうか。
  • RQ4異なる集約器(カーネルサイズ)やアーキテクチュア構成が性能に与える影響は何か。

主な発見

  • GroupMixFormer は ImageNet-1K 分類、COCO の物体検出/セグメンテーション、ADE20K のセマンティックセグメンテーションのいずれでも最先端または競争力のある精度を達成する。
  • より小さな GroupMixFormer バリアントでも大規模モデルに匹敵する ImageNet 性能を達成し、より大きなバリアントは高解像度でより高い精度を達成する。
  • アブレーション実験では、集約器が重要であり、複数の pre-attention 分岐でグループベースの集約を含めると Top-1 精度と検出/セグメンテーション指標が向上する。
  • Group-Mix 機構は他の ViT アーキテクチャにも利益をもたらし、GroupMixFormer に留まらない広範な適用可能性を示す。
  • 窓関数ベースの滑動型集約による効率的設計は、実用的な計算コストとともに多粒度モデリングを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。