[論文レビュー] HS-ResNet: Hierarchical-Split Block on Convolutional Neural Network
HS-ResNetは、単一の残差ブロック内にマルチスケールの特徴表現を作成するプラグアンドプレイの階層分割ブロックを導入し、パラメータ数とレイテンシが同等でありつつ、画像分類、物体検出、インスタンス分割、セマンティック分割の性能を向上させる。
This paper addresses representational block named Hierarchical-Split Block, which can be taken as a plug-and-play block to upgrade existing convolutional neural networks, improves model performance significantly in a network. Hierarchical-Split Block contains many hierarchical split and concatenate connections within one single residual block. We find multi-scale features is of great importance for numerous vision tasks. Moreover, Hierarchical-Split block is very flexible and efficient, which provides a large space of potential network architectures for different applications. In this work, we present a common backbone based on Hierarchical-Split block for tasks: image classification, object detection, instance segmentation and semantic image segmentation/parsing. Our approach shows significant improvements over all these core tasks in comparison with the baseline. As shown in Figure1, for image classification, our 50-layers network(HS-ResNet50) achieves 81.28% top-1 accuracy with competitive latency on ImageNet-1k dataset. It also outperforms most state-of-the-art models. The source code and models will be available on: https://github.com/PaddlePaddle/PaddleClas
研究の動機と目的
- 特徴マップの冗長情報を最小化する効率的なブロックの設計を動機づける。
- 既存のCNNバックボーンをアップグレードするプラグアンドプレイの階層分割ブロックを開発する。
- 分類、検出、インスタンス分割、セマンティック分割のマルチタスクの有効性を示す。
提案手法
- 1x1畳み込みの後に特徴マップをsグループに分割する階層分割ブロックを提案する。
- 各グループ内で3x3畳み込みを適用してy_iを生成し、次のグループx_{i+1]と連結するy_{i,2}とy_{i,1}に分割する。
- グループ全体でy_{i,1}を結合してチャネル次元を回復し、その後最終の1x1畳み込みで特徴を再構築する。
- ResNetボトルネックの標準の3x3畳み込みを階層分割ブロックに置換し、パラメータ数とコストを比較可能な水準に保つ。
- 同じwとsの条件下で、HS-ResNetがk x k畳み込みより資源を少なく使うことを示す。
- ImageNet-1kおよび下流タスク(COCO、Cityscapes)で訓練・評価を行い、改善を示す。
実験結果
リサーチクエスチョン
- RQ1階層分割ブロックは単一の残差ブロック内でマルチスケール表現を生み出せるか?
- RQ2標準ボトルネックの畳み込みを階層分割ブロックに置換することで、パラメータやレイテンシを大幅に増やすことなく、画像分類・物体検出・インスタンス分割・セマンティック分割の性能を向上させられるか?
- RQ3幅wとグループ数sは精度と推論速度にどのような影響を与えるか?
- RQ4HS-ResNetは標準的な視覚ベンチマークにおいて最先端のバックボーンと競合するか、あるいは優れているか?
主な発見
- HS-ResNet50はImageNet-1kでトップ1精度81.28%を、300エポックの訓練とデータ拡張を用いて達成した。
- HS-ResNet50はFaster R-CNN + FPNを用いたCOCO物体検出のmAPを37.2%(ResNet50)から41.6%へ改善した。
- HS-ResNet50は2x訓練スケジュールでMask R-CNNに対してBBox mAP 43.1%、Segm mAP 38.0%を達成し、ResNet50-DおよびRes2Net50を上回った。
- HS-ResNet50はDeeplabv3+ベースラインでCityscapesのmean IoU 79.8%を達成し、ResNet50-Dより1.8%改善した。
- アブレーションによりグループ数sを増やすと精度が向上するが、直列処理と分割操作のため推論が遅くなる可能性があることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。