[論文レビュー] NViT: Vision Transformer Compression and Parameter Redistribution.
本論文は、ViTモデルのグローバルかつ遅延に配慮した構造的プルーニングに基づく、新しいビジョントランスフォーマー・アーキテクチャであるNViTを提案する。プルーニングされた重み構造を分析することで、著者らはパラメータをより効率的に再配分し、ImageNet-1K上でFLOPsを2.6倍削減、パラメータを5.1倍削減、1.9倍の高速化を達成したが、精度の低下はたった0.07%にとどまり、手動設計されたDEITバージョンを0.1–1.1%の精度向上で上回った。
Transformers yield state-of-the-art results across many tasks. However, they still impose huge computational costs during inference. We apply global, structural pruning with latency-aware regularization on all parameters of the Vision Transformer (ViT) model for latency reduction. Furthermore, we analyze the pruned architectures and find interesting regularities in the final weight structure. Our discovered insights lead to a new architecture called NViT (Novel ViT), with a redistribution of where parameters are used. This architecture utilizes parameters more efficiently and enables control of the latency-accuracy trade-off. On ImageNet-1K, we prune the DEIT-Base (Touvron et al., 2021) model to a 2.6x FLOPs reduction, 5.1x parameter reduction, and 1.9x run-time speedup with only 0.07% loss in accuracy. We achieve more than 1% accuracy gain when compressing the base model to the throughput of the Small/Tiny variants. NViT gains 0.1-1.1% accuracy over the hand-designed DEIT family when trained from scratch, while being faster.
研究の動機と目的
- 推論時のビジョントランスフォーマーの高い計算コストを低減すること。
- プルーニングされたViTモデルにおける構造的規則性を発見し、アーキテクチャの再設計に活用すること。
- より効率的なパラメータ再配分を実現する新しいViTアーキテクチャNViTを開発すること。
- 顕著なモデル圧縮を達成しつつ、精度の低下を最小限に抑え、推論速度を向上させること。
提案手法
- 全ViTパラメータにわたるグローバルかつ構造的プルーニングを、遅延に配慮した正則化を用いて実施し、計算コストを低減すること。
- プルーニングされたViTモデルの重み構造を分析し、繰り返し現れるパターンや規則性を特定すること。
- プルーニングされたアーキテクチャからの知見を活用して、再構築されたパラメータ使用法を持つ新しいViTアーキテクチャNViTを設計すること。
- NViTにおけるパラメータの再配分により、効率性を向上させ、調整可能な遅延-精度トレードオフを実現すること。
- NViTを再訓練し、同じ圧縮条件下で手動設計されたDEITバージョンと比較すること。
実験結果
リサーチクエスチョン
- RQ1グローバルにプルーニングされたビジョントランスフォーマーの重み行列に、どのような構造的規則性が現れるか?
- RQ2プルーニングされたViTアーキテクチャからの知見は、より効率的なトランスフォーマー・モデルの設計にどのように活用できるか?
- RQ3ViTにおける再構築されたパラメータ分布は、手動設計されたバージョンと比較して、より優れた遅延-精度トレードオフを実現できるか?
- RQ4FLOPsおよびパラメータ数をどれほど削減できるか、精度の著しい低下なしに?
主な発見
- DEIT-Baseをグローバルかつ遅延に配慮した構造的プルーニングにより処理した結果、FLOPsが2.6倍削減され、精度低下はたった0.07%にとどまった。
- 同じプルーニング処理により、パラメータが5.1倍削減され、ImageNet-1K上での実行時間も1.9倍高速化された。
- NViTは、DEIT-SmallまたはDEIT-Tinyのスループットレベルに圧縮された場合、DEITファミリーを1%以上の精度向上で上回った。
- NViTは、再訓練された状態で手動設計されたDEITバージョンを0.1–1.1%の精度向上で上回り、かつより高速であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。