[論文レビュー] Dual-stream Network for Visual Recognition
DS-Netは高解像度の局所ディテールと低解像度のグローバルパターンを別々に処理するデュアルストリームブロックを導入し、スケール間の整合性を用いてそれらを融合させ、ImageNetとMSCOCOで強力な結果を達成します。
Transformers with remarkable global representation capacities achieve competitive results for visual tasks, but fail to consider high-level local pattern information in input images. In this paper, we present a generic Dual-stream Network (DS-Net) to fully explore the representation capacity of local and global pattern features for image classification. Our DS-Net can simultaneously calculate fine-grained and integrated features and efficiently fuse them. Specifically, we propose an Intra-scale Propagation module to process two different resolutions in each block and an Inter-Scale Alignment module to perform information interaction across features at dual scales. Besides, we also design a Dual-stream FPN (DS-FPN) to further enhance contextual information for downstream dense predictions. Without bells and whistles, the proposed DS-Net outperforms DeiT-Small by 2.4% in terms of top-1 accuracy on ImageNet-1k and achieves state-of-the-art performance over other Vision Transformers and ResNets. For object detection and instance segmentation, DS-Net-Small respectively outperforms ResNet-50 by 6.4% and 5.5% in terms of mAP on MSCOCO 2017, and surpasses the previous state-of-the-art scheme, which significantly demonstrates its potential to be a general backbone in vision tasks. The code will be released soon.
研究の動機と目的
- 視覚モデルにおいて局所とグローバルのパターンを共同でモデリングする必要性を動機づける。
- 認識精度向上のためにデュアルスケール表現を保持するDual-stream Network (DS-Net)を提案する。
- デュアルスケール処理を可能にするIntra-scale Propagationと、それらを融合するInter-scale Alignmentを設計する。
- 密な予測タスクのためにDS-FPNとしてデュアルストリーム設計をFeature Pyramid Networksに拡張する。
提案手法
- 局所(高解像度)とグローバル(低解像度)パスに特徴を分割するDual-stream Blocks (DS-Blocks)を導入する。
- 細かなディテールを捉えるために局所特徴を深さ-wise 3x3畳み込みで処理する。
- ダウンサンプリングされたトークン列上で自己注意を用いて全体特徴を処理し、オブジェクトレベルの関係を捉える。
- コアテンションを用いて双方向に局所とグローバル表現を融合するInter-scale Alignmentを適用する。
- DS-BlocksをFPNに組み込み、強化されたマルチスケールコンテキストを持つDS-FPNを形成する。
実験結果
リサーチクエスチョン
- RQ1デュアルストリームアーキテクチャは、分類や密集予測タスクのために、局所的な情報とグローバルな視覚情報を効果的に分離できるか。
- RQ2Intra-scale PropagationとInter-scale Alignmentは、単純な融合手法よりもクロススケール特徴融合を改善するか。
- RQ3標準のFPNと比較して、DS-FPNは物体検出とインスタンスセグメンテーションに測定可能な改善をもたらすか。
- RQ4局所/グローバル特徴の比率が性能に与える影響は何か?
主な発見
| 方法 | パラメータ (M) | FLOPs (G) | スループット (Images/s) | Top-1 | Top-5 |
|---|---|---|---|---|---|
| DS-Net-T (ours) | 9.1 | 1.6 | 1199 | 78.1 | |
| DS-Net-T* (ours) | 10.5 | 1.8 | 1034 | 79.0 | (+6.8) |
| DS-Net-S (ours) | 19.7 | 3 | 582 | 81.9 | |
| DS-Net-S* (ours) | 23 | 3.5 | 510 | 82.3 | (+2.4) |
| DS-Net-B (ours) | 48.8 | 7.6 | 387 | 82.8 | |
| DS-Net-B* (ours) | 49.3 | 8.4 | 335 | 83.1 | (+1.3) |
- DS-NetはImageNet-1kでDeiT-Smallをtop-1精度で2.4%上回る。
- DS-Netのバリアントは、ImageNet分類においてVision TransformersとCNNの間で競争力あるまたは最先端の結果を達成。
- MSCOCO 2017では、DS-Net-S*はResNet-50を用いたRetinaNetのAPbboxを6.4%、Mask R-CNNのAPbboxを6.1%改善。
- DS-Net-S*はインスタンス分割で40.2%のAPを達成し、ResNet-50とSwin-Tをそれぞれ5.5%と0.4%上回る。
- DS-Net-T*およびDS-Net-S*は、非対称でない counterpartsより追加の利得を示し、Inter-scale Alignmentの利点を示している。
- DS-FPNはDS-Blocksを組み込んだことで、標準FPNに対して物体検出とインスタンス分割の両方でmAPの改善を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。