[論文レビュー] UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition
UniRepLKNet は、大きなカーネルを持つ ConvNets を四つのアーキテクチャ指針と Dilated Reparam Block を用いて、時間系列や音声を含む複数モダリティにおいても高い効率性を保ちつつ、画像全般で最先端の結果を実現します。
Large-kernel convolutional neural networks (ConvNets) have recently received extensive research attention, but two unresolved and critical issues demand further investigation. 1) The architectures of existing large-kernel ConvNets largely follow the design principles of conventional ConvNets or transformers, while the architectural design for large-kernel ConvNets remains under-addressed. 2) As transformers have dominated multiple modalities, it remains to be investigated whether ConvNets also have a strong universal perception ability in domains beyond vision. In this paper, we contribute from two aspects. 1) We propose four architectural guidelines for designing large-kernel ConvNets, the core of which is to exploit the essential characteristics of large kernels that distinguish them from small kernels - they can see wide without going deep. Following such guidelines, our proposed large-kernel ConvNet shows leading performance in image recognition (ImageNet accuracy of 88.0%, ADE20K mIoU of 55.6%, and COCO box AP of 56.4%), demonstrating better performance and higher speed than the recent powerful competitors. 2) We discover large kernels are the key to unlocking the exceptional performance of ConvNets in domains where they were originally not proficient. With certain modality-related preprocessing approaches, the proposed model achieves state-of-the-art performance on time-series forecasting and audio recognition tasks even without modality-specific customization to the architecture. All the code and models are publicly available on GitHub and Huggingface.
研究の動機と目的
- 大きなカーネルを持つ ConvNets の設計上のギャップを動機づけ、モダリティを横断した普遍的知覚能力を評価する。
- ERF の成長を深さから分離し、効率性を改善するための四つのアーキテクチャ指針を提案する。
- 大きなカーネルを用いた ConvNet が、モダリティ特有の前処理を用いずとも、画像・音声・動画・時系列・点群など多様なデータで卓越できることを Demonstrate する。
- ImageNet・ADE20K・COCO・時系列/音声のベンチマークで実証的な結果を示し、普遍性を確立する。
提案手法
- 大きなカーネル ConvNets のための四つのアーキテクチャ指針を提案する: (1) 深さを増やすために効率的なチャネル間構造を用いる; (2) 大きなカーネルを並列の小カーネルの拡張枝で再パラメータ化する Dilated Reparam Block を用いる; (3) 大きなカーネルを中間層/上位層に配置し、下流タスクに合わせてカーネルサイズを調整する; (4) より大きなカーネルを増やすのではなく、小さなカーネルで深さを増やす。
- 2)
- Dilated Reparam Block は parallel の拡張小カーネル枝を用い、それらの出力を合算する;推論時には BN 層を統合し、枝を再パラメータ化して単一の大きなカーネルへと変換する。
- 3)
- 4-stages のダウンサンプリングブロックを備えた Vanilla バックボーンを採用し、中間/上位段階で大きなカーネルを用い(K=13)、深さを効率的に増やすために SE ブロックを用いる。
- 5)
- UniRepLKNet を非画像モダリティへ一般化するため、データを形状 B x C' x H x W の埋め込みマップへ変換し、モダリティ特有の前処理を最小限に抑えて同じバックボーンを適用する(時系列、音声、点群、動画)。
- 6)
- さまざまな深さ/幅を持つモデル系統 (A, F, P, N, T, S, B, L, XL) を提供し、スループットと精度を報告する。
実験結果
リサーチクエスチョン
- RQ1大きなカーネル ConvNets は標準的なビジョンタスクで最先端の性能を達成しつつ、スループットを高く保てるか。
- RQ2大きなカーネル ConvNets は、最小限のモダリティ特化のカスタマイズで、音声・動画・点群・時系列・画像データ全般にわたって普遍的知覚能力を示すか。
- RQ3ImageNet、ADE20K、COCO などの下流タスクで、パフォーマンスと効率を最適化するアーキテクチャ上の選択肢は何か。
- RQ4カーネルを拡大しても、適切な下流フレームワーク(例:セグメンテーションの UPerNet など)と組み合わせることで、特徴の質を維持・向上できる証拠はあるか。
主な発見
| Method | Type | Input | Params (M) | FLOPs (G) | Throughput (img/s) | Acc (%) | Notes |
|---|---|---|---|---|---|---|---|
| UniRepLKNet-A | C | 224^2 | 4.4 | 0.6 | 5942 | 77.0 | ImageNet-1K |
| UniRepLKNet-F | C | 224^2 | 6.2 | 0.9 | 5173 | 78.6 | ImageNet-1K |
| UniRepLKNet-P | C | 224^2 | 10.7 | 1.6 | 3949 | 80.2 | ImageNet-1K |
| UniRepLKNet-N | C | 224^2 | 18.3 | 2.8 | 2807 | 81.6 | ImageNet-1K |
| UniRepLKNet-T | C | 224^2 | 31 | 4.9 | 1804 | 83.2 | ImageNet-1K |
| UniRepLKNet-S | C | 224^2 | 56 | 9.1 | 1265 | 83.9 | ImageNet-1K |
| UniRepLKNet-B | C | 224^2 | 98 | /m | / | / | |
| UniRepLKNet-L | C | 224^2 | 218 | / | / | / | |
| UniRepLKNet-XL | C | 384^2 | 386 | / | / | 87.4 | Largest variant (ImageNet via 384^2) |
- UniRepLKNet は Variants 間で ImageNet top-1 精度が 83.9–87.9 に達し、同業他社と比べてスループットが競争力があるまたは上回る。
- ImageNet では UniRepLKNet-A/F が ConvNeXt V2-A/F より精度で上回り、推論は高速; UniRepLKNet-P/N は FastViT-T12/S12 および ConvNeXt V2 P/N を上回る。
- 物体検出とセグメンテーションでは UniRepLKNet の variants が COCO と ADE20K の AP/箱・AP/マスクで強力な性能を示し、いくつかの ViT や大きなカーネルベースラインを上回る。
- 小カーネルで深さを増やす(LarK vs SmaK ブロック)と速度と精度のトレードオフが改善される;Stage 3 で 9 LarK ブロックが精度とスループットのバランスを達成。
- UniRepLKNet はモダリティ固有の埋め込みマップを用いて時系列予測と音声認識に同じバックボーンを適用することで普遍的知覚能力を示し、GFS の温度・風速予測で最先端の結果を達成。
- モダリティを超えて、UniRepLKNet は専用アーキテクチャを上回るか同等でありながら、GPU 上で高いスループットを維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。