[論文レビュー] Locally Free Weight Sharing for Network Width Search
本稿では、ニューラルアーキテクチャサーチ(NAS)における局所的自由重み共有戦略であるCafeNetを提案する。この手法は、局所領域内でのチャネルを自由に選択可能にすることで、ネットワーク幅探索の性能評価の正確性を向上させる。ベースチャネルと局所的自由チャネルを組み合わせ、FLOPsに敏感なバインディングを用いることで、最小最小最適化戦略下で効率的かつ確率的トレーニングを可能とし、最先端の性能を達成した。ImageNetではEfficientNet-B0を0.41%上回る精度を達成した。
Searching for network width is an effective way to slim deep neural networks with hardware budgets. With this aim, a one-shot supernet is usually leveraged as a performance evaluator to rank the performance \wrt~different width. Nevertheless, current methods mainly follow a manually fixed weight sharing pattern, which is limited to distinguish the performance gap of different width. In this paper, to better evaluate each width, we propose a locally free weight sharing strategy (CafeNet) accordingly. In CafeNet, weights are more freely shared, and each width is jointly indicated by its base channels and free channels, where free channels are supposed to loCAte FrEely in a local zone to better represent each width. Besides, we propose to further reduce the search space by leveraging our introduced FLOPs-sensitive bins. As a result, our CafeNet can be trained stochastically and get optimized within a min-min strategy. Extensive experiments on ImageNet, CIFAR-10, CelebA and MS COCO dataset have verified our superiority comparing to other state-of-the-art baselines. For example, our method can further boost the benchmark NAS network EfficientNet-B0 by 0.41\% via searching its width more delicately.
研究の動機と目的
- ワンショットスーパーネットトレーニングにおける固定された重み共有パターンの制限を是正すること。これは、異なるネットワーク幅の性能評価を正確に行うのを制限する。
- ターゲット幅の周囲の局所領域内で自由なチャネルを選択可能にすることで、サブネットワーク表現の表現力を向上させ、探索空間が爆発することなく柔軟性を高めること。
- FLOPsに敏感なバインディングを用いて探索空間を効率的に削減し、層ごとにFLOPsをより均等に分散させることで、ハードウェア制約下での最適化を改善すること。
- スーパーネットで確率的トレーニングと最小最小最適化を可能とし、最良の性能を示す幅構成に収束させること。
- 厳密なFLOPs予算下で、ImageNet、CIFAR-10、MS COCOを含む多様なデータセットおよびモデルにおいて、幅探索の優れた性能を達成すること。
提案手法
- CafeNetは2段階のチャネル選択戦略を導入する。ベースチャネルは固定された左端パターンに従い、自由チャネルはターゲット幅の周囲の局所的近傍から選択可能となり、局所的な柔軟性を実現する。
- 本手法は最小最小最適化戦略を用いる。各幅に対して、損失が最小となるサブネットワークを選択することで、効率的かつ正確な性能ランク付けが可能になる。
- FLOPsに敏感なバインディングを導入し、ネットワークをFLOPsがより均等に分散する領域に分割することで、探索空間を削減し、最適化の効率を向上させる。
- 各バッチで複数のサブネットワーク構成を順伝搬させ、バックプロパゲーションは一度だけ適用することで、前方伝搬の増加にもかかわらずトレーニング効率を維持する確率的トレーニングを実施する。
- 局所的自由チャネル選択は半径rによってパrameter化され、このrは局所領域のサイズを制御する。r=1をデフォルトとして採用することで、性能と効率のバランスをとる。
- 本手法はグリーディー探索と遺伝的探索戦略の両方をサポートし、異なるモデルおよびFLOPs予算下での堅牢かつスケーラブルな幅探索を可能にする。
実験結果
リサーチクエスチョン
- RQ1固定された重み共有パターンと比較して、局所的自由重み共有戦略は、異なるネットワーク幅の性能評価の正確性を向上させることができるか?
- RQ2ターゲット幅の周囲の局所領域内で自由チャネルを許可することで、計算コストが著しく増大することなく、サブネットワークの表現力が向上するか?
- RQ3FLOPsに敏感なバインディングは、異なるFLOPs予算下で探索空間を効果的に削減し、モデルの精度を維持または向上させることができるか?
- RQ4確率的トレーニング下で、最小最小最適化戦略は最適な幅構成を特定するのにどの程度効果的か?
- RQ5CafeNetは、より正確な幅探索により、EfficientNet-B0のような既存モデルをどの程度向上させることができるか?
主な発見
- CafeNetは、より細かいグレインの幅探索を可能にすることで、ImageNet上でのベースラインEfficientNet-B0を0.41%上回る精度を達成した。
- CIFAR-10では、遺伝的探索を用いたCafeNetが、0.5× FLOPsのMobileNetV2を0.91%、VGGNetを0.74%向上させ、均一なベースライン探索を上回った。
- FLOPsに敏感なバインディングを用いることで、同じFLOPs予算下でMobileNetV2では最大0.19%、VGGNetでは最大0.34%の精度向上が確認され、探索空間の効果的な削減が示された。
- r=1の場合はr=0と比較してトレーニング時間を19%しか延長しないため、追加の柔軟性がトレーニング効率にほとんど影響しないことが示された。
- ResNet34およびResNet18では、0.75× FLOPsのモデルが元のモデルと比較してトップ1精度で0.5%以内の差に抑えられ、10% FLOPs予算下ではベースラインを最大2.5%上回った。
- 局所的自由重み共有とFLOPsに敏感なバインディングの組み合わせにより、ImageNetでは0.41%の精度向上が達成され、複数のデータセットおよびモデルアーキテクチャで一貫した改善が得られた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。