[論文レビュー] Aggregated Residual Transformations for Deep Neural Networks
本論文は ResNeXt を提案する。モジュール化されたマルチブランチアーキテクチャでカーディナリティ(並列変換の数)を増やし、深さや幅を増やすことなく精度を向上させ、ResNet および Inception 系と比較して ImageNet、ImageNet-5K、CIFAR、COCO における有効性を示す。
We present a simple, highly modularized network architecture for image classification. Our network is constructed by repeating a building block that aggregates a set of transformations with the same topology. Our simple design results in a homogeneous, multi-branch architecture that has only a few hyper-parameters to set. This strategy exposes a new dimension, which we call "cardinality" (the size of the set of transformations), as an essential factor in addition to the dimensions of depth and width. On the ImageNet-1K dataset, we empirically show that even under the restricted condition of maintaining complexity, increasing cardinality is able to improve classification accuracy. Moreover, increasing cardinality is more effective than going deeper or wider when we increase the capacity. Our models, named ResNeXt, are the foundations of our entry to the ILSVRC 2016 classification task in which we secured 2nd place. We further investigate ResNeXt on an ImageNet-5K set and the COCO detection set, also showing better results than its ResNet counterpart. The code and models are publicly available online.
研究の動機と目的
- アーキテクチャ設計を動機付けるため、カーディナリティの増加が CNN の表現力に与える影響を探る。
- 同質のモジュール式多分岐ブロックを提案し、変換済み埋め込みを集約する。
- カーディナリティを増やすことが、同等の複雑さでより深いまたは広いネットワークを上回り得ることを示す。
- ResNeXt の有効性を ImageNet、ImageNet-5K、CIFAR、COCO データセットで示す。
提案手法
- 同じトポロジーの複数の変換を総和で集約するモジュール式残差ブロックを採用する。
- ブロック内の並列変換の数をカーディナリティ C と定義し、幅/深さを固定したまま C を変化させる。
- パラメータ数と FLOPs を抑えるため、各経路にボトルネック形状の変換を用いる。
- ブロックを連結またはグループ化畳み込みを用いて等価に再定式化し、異なる実装を示す。
- カーディナリティを変化させても全体の計算量をPreserve(保持)し、性能を比較する。
- SGD による多GPU設定と標準的データ拡張で学習し、ResNeXt ブロックを実現するためにグループ化畳み込みを実装する。
実験結果
リサーチクエスチョン
- RQ1カーディナリティ(並列変換の数)を増やすと、深さと幅を概ね一定に保った場合、精度は向上するか。
- RQ2ImageNet で同等の計算予算を前提としたとき、ResNeXt は ResNet および Inception 系アーキテクチャと比較してどうか。
- RQ3カーディナリティの向上は、データの異なるスケール(ImageNet、ImageNet-5K)やタスク(分類、検出、CIFAR)で一貫性があるか。
- RQ4最適化と表現力の観点で、残差結合と集約変換の役割はどう異なるか。
主な発見
- カーディナリティの増加は、同程度の複雑さで基準となる ResNet よりも検証誤差を低くする。
- ResNeXt-50 で C を 32、4d ボトルネックに増やすと、トップ1 誤差が ResNet-50 の 23.9% から 22.2% に低下する。
- ResNeXt-101 で 32×4d を用いるとトップ1 誤差が 21.2% となり、ResNet-101 の 21.2%(注: テキストの表記を慎重に解釈)を上回る;表では ResNeXt-101 32×4d が 21.2%、ResNet-101 1×64d が 22.0%であると記される。
- カーディナリティを増やしつつ複雑さを保つことは、同等の FLOPs で深くしたり広くしたりするよりも性能向上をもたらす;例えば ResNeXt-101(32×4d)で 2× FLOPs の場合、ResNet-101 より最大約 1.3% のトップ1 改善が得られる。
- ImageNet-5K では、ResNeXt-50 は ResNet-50 に対して 5K-ウェイのトップ1 誤差を 3.2% 減らし、ResNeXt-101 は ResNet-101 に対して 2.3% 減らす。
- ResNeXt は複雑さを増やさずに COCO の検出 AP および AP@IoU=0.5 を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。