QUICK REVIEW

[論文レビュー] Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Chaitanya K. Ryali, Yuan-Ting Hu|arXiv (Cornell University)|Jun 1, 2023

CCD and CMOS Imaging Sensors被引用数 58

ひとこと要約

Hiera は MAE で事前学習されたシンプルな階層型ビジョントランスフォーマーで、従来のビジョン特有モジュールを排除し、従来の階層モデルと比べて画像と動画タスクでより高い精度を達成し、トレーニングと推論を高速化します。

ABSTRACT

Modern hierarchical vision transformers have added several vision-specific components in the pursuit of supervised classification performance. While these components lead to effective accuracies and attractive FLOP counts, the added complexity actually makes these transformers slower than their vanilla ViT counterparts. In this paper, we argue that this additional bulk is unnecessary. By pretraining with a strong visual pretext task (MAE), we can strip out all the bells-and-whistles from a state-of-the-art multi-stage vision transformer without losing accuracy. In the process, we create Hiera, an extremely simple hierarchical vision transformer that is more accurate than previous models while being significantly faster both at inference and during training. We evaluate Hiera on a variety of tasks for image and video recognition. Our code and models are available at https://github.com/facebookresearch/hiera.

研究の動機と目的

階層型トランスフォーマーにおける追加のビジョン特有モジュールはモデルを煩雑にし、遅くするという点を動機づけとする。
強力な MAE の事前学習が空間的バイアスを学習させ、よりシンプルなアーキテクチャが複雑な先行モデルを上回ることを示す。
シンプル化した階層型 ViT が、画像と動画のタスクで精度を維持または向上させつつ、トレーニングと推論の速度を向上させられることを示す。

提案手法

ベースとなる階層型 ViT (MViTv2) から始め、非本質的なビジョン特有コンポーネントを削ぎ落とす。
階層モデルに適したマスクユニットの独自概念を用いた Masked Autoencoder (MAE) の事前学習を採用する。
MAE の事前学習時の初期段階で効率化のため、グローバル KV プーリングを置換する Mask Unit Attention を導入する。
疎な MAE 事前学習時の重なり問題を回避するための separate-and-pad テ trick を用い、畳み込みなしで効率的なトレーニングを可能にする。
MAE 事前学習下での性能を維持しつつ、相対位置エンベディング、畳み込み、及び多くの余計な要素を削除する。
FLOPs、パラメータ数、ステージ構造の詳細とともに、複数の Hiera 構成 (T, S, B, B+, L, H) を提供する。

実験結果

リサーチクエスチョン

RQ1MAE で事前学習した場合、純粋なトランスフォーマーベースの階層型視覚モデルは、過剰な機能を使わずに最先端の成果を達成できるのか？
RQ2MAE 事前学習が、簡略化された階層型アーキテクチャとどのように相互作用して、画像と動画タスクで速度と精度の向上をもたらすのか？
RQ3畳み込み、注意機構の残余、特化したプーリングを MAE を階層 ViT に用いる際に削除することで生じるトレードオフは何か？
RQ4異なる MAE 事前学習設定（マスク比、デコーダ深さ、ドロップパス、事前学習長さ）が、画像と動画の性能にどう影響するか？

主な発見

Hiera は、画像および動画タスクで従来の最先端階層モデルを上回り、トレーニングと推論の速度も大幅に速い。
MAE 事前学習は、簡素なアーキテクチャが、より複雑で畳み込みを多用したモデルと比べて競争力のある、あるいは優れた精度を達成できるようにする。
畳み込み、シフト窓、分解された相対位置エンベディングを MAE 使用下で削除することで、極めてシンプルなモデルながら高い性能を示す。
Mask Unit Attention は、動画で精度を損なうことなく実行スループットを大幅に向上させ、基盤となる MViTv2 アーキテクチャに対する大きな速度増をもたらす。
バリアントを通じて、Hiera-L は MAE 使用時に ImageNet-1K でトップ-1、86.1%、動画では Kinetics-700 で 88.3% を達成し、同等のベースラインより小さく高速。
転移タスクでは、Hiera のバリアントが iNaturalist および Places データセットで MAE で事前学習した ViT を一貫して上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。