[論文レビュー] UniFormer: Unifying Convolution and Self-attention for Visual Recognition
UniFormer は畳み込みとセルフアテンションを簡潔なトランスフォーマーブロックに統合し、局所の冗長性とグローバル依存性に対処。画像と動画タスクで高い精度と効率を実現。動的位置埋め込みと局所(浅い)とグローバル(深い)トークン親和性を備えたマルチヘッドリレーションアグリゲーターを導入。
It is a challenging task to learn discriminative representation from images and videos, due to large local redundancy and complex global dependency in these visual data. Convolution neural networks (CNNs) and vision transformers (ViTs) have been two dominant frameworks in the past few years. Though CNNs can efficiently decrease local redundancy by convolution within a small neighborhood, the limited receptive field makes it hard to capture global dependency. Alternatively, ViTs can effectively capture long-range dependency via self-attention, while blind similarity comparisons among all the tokens lead to high redundancy. To resolve these problems, we propose a novel Unified transFormer (UniFormer), which can seamlessly integrate the merits of convolution and self-attention in a concise transformer format. Different from the typical transformer blocks, the relation aggregators in our UniFormer block are equipped with local and global token affinity respectively in shallow and deep layers, allowing to tackle both redundancy and dependency for efficient and effective representation learning. Finally, we flexibly stack our UniFormer blocks into a new powerful backbone, and adopt it for various vision tasks from image to video domain, from classification to dense prediction. Without any extra training data, our UniFormer achieves 86.3 top-1 accuracy on ImageNet-1K classification. With only ImageNet-1K pre-training, it can simply achieve state-of-the-art performance in a broad range of downstream tasks, e.g., it obtains 82.9/84.8 top-1 accuracy on Kinetics-400/600, 60.9/71.2 top-1 accuracy on Sth-Sth V1/V2 video classification, 53.8 box AP and 46.4 mask AP on COCO object detection, 50.8 mIoU on ADE20K semantic segmentation, and 77.4 AP on COCO pose estimation. We further build an efficient UniFormer with 2-4x higher throughput. Code is available at https://github.com/Sense-X/UniFormer.
研究の動機と目的
- 視覚認識における局所的な冗長性低減とグローバル依存性の捕捉のバランスを取る必要性を動機づける。
- 畳み込みと自己注意メカニズムを単一フレームワークにブレンドした統一型トランスフォーマーブロックを提案する。
- 画像から動画タスクまで効率的な計算で良好に機能する軽量で柔軟なバックボーンを設計する。
- 追加のトレーニングデータなし、または標準の ImageNet pre-training のみで、分類、検出、セマンティックセグメンテーション、ポーズ推定の分野で強い性能を示す。
提案手法
- 軽量な深さ方向畳み込みを介して位置情報を注入する Dynamic Position Embedding (DPE) を導入する。
- 局所アフィニティを浅い層に、グローバルアフィニティを深い層に提供する Multi-Head Relation Aggregator (MHRA) を開発する。
- MHRA を R_n(X)=A_n V_n(X) および MHRA(X)=Concat(R_1,...,R_N)U として定式化し、統一された畳み込み/自己注意トークンリレーション学習を可能にする。
- 局所 MHRA を 5x5 の depthwise conv と学習可能な相対位置のような行列を備えた PWConv-DWConv-PWConv ブロックとして実装する。
- グローバル MHRA を Q/K ベースのトークンアフィニティを用いたマルチヘッド自己注意として、共同の時空関係を実現(画像は1フレームとして)。
- UniFormer ブロックを4段階のバックボーンに組み込み、画像用に構築し、動画には3Dへ拡張。BN/LN および特徴 refinement の FFN(GELU)を使用。
- トークン縮小/回復を伴う効率的な Hourglass UniFormer (H-UniFormer) variant を提案し、スループットを向上させる。
実験結果
リサーチクエスチョン
- RQ1局所畳み込み様の親和性とグローバル自己注意を組み合わせた統一ブロックは、画像および動画タスク全体で精度と効率を改善できるか?
- RQ2動的位置埋め込みと局所→グローバルのリレーションアグリゲータの組み合わせは、純CNNやViTよりも表現学習を向上させるか?
- RQ3UniFormer は、オブジェクト検出、セマンティックセグメンテーション、ポーズ推定などの下流タスクで、既存のバックボーンと比べてどのように性能を発揮するか?
- RQ4軽量な UniFormer バリアントは、スループットを大幅に向上させつつ性能を維持できるか?
主な発見
- ImageNet-1K の追加トレーニングデータなしで 86.3 top-1 精度を達成。
- ImageNet-1K の事前学習を用いると、Kinetics-400/600 で 82.9/84.8 top-1、Something-Something V1/V2 で 60.9/71.2 を達成。
- COCO 物体検出およびインスタンスセグメンテーションで 53.8 の bbox AP と 46.4 の mask AP を達成。
- ADE20K セマンティックセグメンテーションで 50.8 mIoU、COCO ポーズ推定で 77.4 AP。
- UniFormer-Hourglass variant は、最近の軽量モデルより 2–4× 高いスループットを実現しつつ性能を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。