[論文レビュー] Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios
Next-ViT は Next Convolution Block (NCB) と Next Transformer Block (NTB) を、Next Hybrid Strategy (NHS) とともに導入し、CNN に匹敵するレイテンシを実現しつつ ViT の精度に匹敵する性能を達成し、TensorRT や CoreML などの産業用デプロイメントプラットフォームで既存モデルを上回る。
Due to the complex attention mechanisms and model design, most existing vision Transformers (ViTs) can not perform as efficiently as convolutional neural networks (CNNs) in realistic industrial deployment scenarios, e.g. TensorRT and CoreML. This poses a distinct challenge: Can a visual neural network be designed to infer as fast as CNNs and perform as powerful as ViTs? Recent works have tried to design CNN-Transformer hybrid architectures to address this issue, yet the overall performance of these works is far away from satisfactory. To end these, we propose a next generation vision Transformer for efficient deployment in realistic industrial scenarios, namely Next-ViT, which dominates both CNNs and ViTs from the perspective of latency/accuracy trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer Block (NTB) are respectively developed to capture local and global information with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks. Extensive experiments show that Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer hybrid architectures with respect to the latency/accuracy trade-off across various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.5 mAP (from 40.4 to 45.9) on COCO detection and 7.7% mIoU (from 38.8% to 46.5%) on ADE20K segmentation under similar latency. Meanwhile, it achieves comparable performance with CSWin, while the inference speed is accelerated by 3.6x. On CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on COCO detection and 3.5% mIoU (from 45.1% to 48.6%) on ADE20K segmentation under similar latency. Our code and models are made public at: https://github.com/bytedance/Next-ViT
研究の動機と目的
- 産業シーン(TensorRT/CoreML)での高速でデプロイに適したビジョントランスフォーマーの必要性を動機づける。
- 局所情報(NCB)とグローバル情報(NTB)を効率的に結合するブロックを設計する。
- Transformer と Convolution ブロックをステージ全体でバランスさせるハイブリッドスタッキング戦略(NHS)を提案する。
- 下流タスクにおいて CNN、ViT、CNN-Transformer ハイブリッドに対して優れたレイテンシ/精度トレードオフを実証する。
提案手法
- デプロイメントに優しいトークンミキサーとして Multi-Head Convolutional Attention (MHCA) を用いた Next-Convolution Block (NCB) を開発する。
- Efficient Multi-Head Self Attention (E-MHSA) と MHCA 融合を通じてマルチ周波数信号を捉える Next Transformer Block (NTB) を設計する。
- Next Hybrid Strategy (NHS) を導入し、各ステージで (NCB×N + NTB×1) の構成のように NCB と NTB を積み重ね、固定レイテンシ下で性能を高めるためにさらに繰り返し (×L) を行う。
- TensorRT/CoreML などのハードウェアで推論を加速させるために LayerNorm/GELU の代わりに BatchNorm と ReLU を使用する。
- 特定のステージ構成とチャネル設定を持つ3つの Next-ViT 変種(S/B/L)を提供する(Table 3)。
- ImageNet-1K 分類で訓練・評価し、ハードウェア認識レイテンシの下で下流タスク(COCO 検出、ADE20K セマンティッドセグメンテーション)を評価する。
実験結果
リサーチクエスチョン
- RQ1現実的な産業デプロイメントで ViT レベルの精度を維持しつつ、CNN と同等の高速さで推論できるビジョントランスフォーマーを設計できるか。
- RQ2デプロイメントに適したブロック(NCB および NTB)とハイブリッド戦略(NHS)は、分類・検出・セグメンテーションタスクのレイテンシ/精度トレードオフを改善するか。
- RQ3TensorRT/CoreML の制約下で、さまざまなステージにおける積み重ねパターン(NCB 対 NTB)がスループットとタスク性能に与える影響は何か。
主な発見
- Next-ViT は比較対象モデルの中で ImageNet-1K 分類における最良のレイテンシ/精度トレードオフを実現する。
- TensorRT では、Next-ViT は ResNet を同等のレイテンシ下で COCO 検出で 5.5 mAP(40.4 から 45.9 へ)、ADE20K セマンティングで 7.7% mIoU(38.8% から 46.5% へ)上回る。
- Next-ViT は CSWin と同等の性能を達成しつつ、推論速度は 3.6× 加速する。
- CoreML では、Next-ViT は EfficientFormer を COCO 検出で 4.6 mAP(42.6 から 47.2 へ)、ADE20K セマンティングで 3.5% mIoU(45.1% から 48.6% へ)上回る。
- ハードウェア認識レイテンシ測定(TensorRT/CoreML)を用いた Next-ViT-S/B/L 変種の結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。