QUICK REVIEW

[論文レビュー] Vision Transformer Pruning

Mingjian Zhu, Yehui Tang|arXiv (Cornell University)|Apr 17, 2021

Advanced Neural Network Applications参考文献 44被引用数 53

ひとこと要約

この論文は Vision Transformer Pruning（VTP）を紹介し、L1 稀疎性を用いて次元ごとの重要度スコアを学習し、ViT モデルの MHSA および MLP 投影をプルーニングすることで、パラメータと FLOPs を大幅に削減しつつ精度の低下を最小限に抑える。

ABSTRACT

Vision transformer has achieved competitive performance on a variety of computer vision applications. However, their storage, run-time memory, and computational demands are hindering the deployment to mobile devices. Here we present a vision transformer pruning approach, which identifies the impacts of dimensions in each layer of transformer and then executes pruning accordingly. By encouraging dimension-wise sparsity in the transformer, important dimensions automatically emerge. A great number of dimensions with small importance scores can be discarded to achieve a high pruning ratio without significantly compromising accuracy. The pipeline for vision transformer pruning is as follows: 1) training with sparsity regularization; 2) pruning dimensions of linear projections; 3) fine-tuning. The reduced parameters and FLOPs ratios of the proposed algorithm are well evaluated and analyzed on ImageNet dataset to demonstrate the effectiveness of our proposed method.

研究の動機と目的

edge デバイスでの視覚トランスフォーマーの実用的展開を促進・実現するために、ストレージ、メモリ、計算を削減する。
トランスフォーマー投影の重要でない特徴次元を識別・削除する principled なプルーニングフレームワークを提案する。
スパース性を誘起する学習により、重要な次元が自動的に現れ、限られた精度損失で大幅な圧縮を実現できることを示す。
ImageNet-1K および ImageNet-100 で効果的なプルーニングとスピードアップを実証的に検証する。

提案手法

MHSA および MLP ブロックの線形投影の次元に対して学習可能な重要度スコアを導入する。
離散的なプルーニング判断を実数の重要度スコアで緩和し、L1 ペナルティを用いて sparsity を強制する。
スパース性正則化を用いてほぼゼロの重要度スコアを得た後、しきい値処理で二値プルーニングマスクを得る。
全ての MHSA および MLP コンポーネントにプルーニングを適用し、プルーニングされた投影を再配線し、プルーニング後のモデルを微調整する。
ImageNet-1K および ImageNet-100 でパラメータ数、FLOPs、精度の観点から圧縮を評価する。

実験結果

リサーチクエスチョン

RQ1次元ごとのプルーニングが学習可能な重要度スコアを介して、Vision Transformer のパラメータ数と FLOPs を大幅に削減し、精度の大きな低下を避けられるか。
RQ2スパース性正則化トレーニングは、ViT における重要な次元と削除可能な次元の出現にどのような影響を与えるか。
RQ3標準的な視覚ベンチマークでのプルーニング率、モデルサイズ、計算コスト、精度の間にどんなトレードオフが存在するか。
RQ4提案された VTP アプローチは ImageNet-1K のような大規模データセットにも、小規模サブセットの ImageNet-100 にも有効か。

主な発見

本手法は、ImageNet ベースのベンチマークにおいて、パラメータ数と FLOPs を大幅に削減しつつ、精度の低下は控えめである。
次元の最大 40% までのプルーニングで、ベースラインの精度の大半を維持しつつ notable な FLOPs 削減を達成できる。
プルーニング性能はスパース性レベルとともにスケールし、Imagenet-100 および Imagenet-1K の両方で一貫性がある。
このアプローチは視覚トランスフォーマーのプルーニングに対するシンプルなベースラインを提供し、実践的な展開可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。