QUICK REVIEW

[論文レビュー] Improved Multiscale Vision Transformers for Classification and Detection

Yanghao Li, Chao-Yuan Wu|arXiv (Cornell University)|Dec 2, 2021

Advanced Neural Network Applications参考文献 86被引用数 23

ひとこと要約

本論文は、分解された相対的位置埋め込みと残留プーリング接続を備えた改善版マルチスケールビジョントランスフォーマー（MViT）を提案し、画像分類、物体検出、動画認識の各タスクで性能を向上させた。SOTAの結果を達成した：ImageNetのトップ-1精度は88.8%、COCO検出では56.1のボックスAP、Kinetics-400では86.1%の精度を記録し、追加コンponentsなしで先行手法を上回った。

ABSTRACT

In this paper, we study Multiscale Vision Transformers (MViT) as a unified architecture for image and video classification, as well as object detection. We present an improved version of MViT that incorporates decomposed relative positional embeddings and residual pooling connections. We instantiate this architecture in five sizes and evaluate it for ImageNet classification, COCO detection and Kinetics video recognition where it outperforms prior work. We further compare MViTs' pooling attention to window attention mechanisms where it outperforms the latter in accuracy/compute. Without bells-and-whistles, MViT has state-of-the-art performance in 3 domains: 88.8% accuracy on ImageNet classification, 56.1 box AP on COCO object detection as well as 86.1% on Kinetics-400 video classification. Code and models will be made publicly available.

研究の動機と目的

画像、動画、物体検出タスクのあらゆる視覚トランスフォーマーモデルを統一すること。
新規の位置符号化と残留接続を用いてMViTの性能を向上させること。
精度と計算効率の観点から、プーリングアテンションとウィンドウアテンションのメカニズムを比較すること。
複雑なデータ拡張やトレーニングテクニックに依存せずにSOTAの結果を達成すること。

提案手法

マルチスケール特徴における空間的関係をよりよくモデル化するため、分解された相対的位置埋め込みを導入した。
勾配の流れを向上させるとともにスケール間での特徴精錬を強化するため、残留プーリング接続を統合した。
多様な視覚タスクに対応する階層的特徴表現を持つマルチスケールトランスフォーマー・アーキテクチャを設計した。
プーリングを介してグローバルなコンテキストと局所的なインダクティブバイアスを統合した、統一されたアテンションメカニズムを採用した。
スケーリングの挙動と効率性を分析するために、5種類のモデルサイズでアーキテクチャを評価した。
追加のデータ拡張や後処理を用いない、標準的なトレーニングプロトコルを採用した。

実験結果

リサーチクエスチョン

RQ1提案されたMViTの変種は、先行手法と比較して画像分類、物体検出、動画認識の各タスクでどのように性能を発揮するか？
RQ2分解された相対的位置埋め込みは、モデルの精度と一般化性能にどのような影響を与えるか？
RQ3精度と計算効率の観点から、プーリングアテンションはウィンドウアテンションと比べてどのように差をつけるか？
RQ4タスク固有の変更なしに、統一されたMViTアーキテクチャが複数の視覚タスクでSOTAの性能を達成できるか？
RQ5改善されたMViTの性能スケーリング特性は、異なるモデルサイズにおいてどのように現れるか？

主な発見

改善されたMViTは、ImageNet分類タスクで88.8%のトップ-1精度を達成し、新たなSOTAを樹立した。
COCO物体検出タスクでは56.1のボックスAPを達成し、追加コンponentsなしで先行手法を上回った。
Kinetics-400動画分類タスクでは86.1%の精度を記録し、動画理解分野での強力な性能を示した。
提案されたプーリングアテンションメカニズムは、精度と計算効率の両面でウィンドウアテンションを上回った。
画像、動画、検出の3分野すべてで、SOTAの結果を達成したが、ベルズアンドウィスラス（bells-and-whistles）を用いなかった。
アブレーション実験の結果、分解された相対的位置埋め込みと残留プーリング接続が性能向上に顕著な寄与をしていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。