[論文レビュー] Revisiting ResNets: Improved Training and Scaling Strategies
要約(TL;DR): 本論文はアーキテクチャ、訓練、スケーリングを分離し、訓練とスケーリング戦略の改善により、最先端モデルに対抗するResNetを生み出す。ResNet-RSはEfficientNetsより大幅な速度向上を実現しつつ精度を維持する。
Novel computer vision architectures monopolize the spotlight, but the impact of the model architecture is often conflated with simultaneous changes to training methodology and scaling strategies. Our work revisits the canonical ResNet (He et al., 2015) and studies these three aspects in an effort to disentangle them. Perhaps surprisingly, we find that training and scaling strategies may matter more than architectural changes, and further, that the resulting ResNets match recent state-of-the-art models. We show that the best performing scaling strategy depends on the training regime and offer two new scaling strategies: (1) scale model depth in regimes where overfitting can occur (width scaling is preferable otherwise); (2) increase image resolution more slowly than previously recommended (Tan & Le, 2019). Using improved training and scaling strategies, we design a family of ResNet architectures, ResNet-RS, which are 1.7x - 2.7x faster than EfficientNets on TPUs, while achieving similar accuracies on ImageNet. In a large-scale semi-supervised learning setup, ResNet-RS achieves 86.2% top-1 ImageNet accuracy, while being 4.7x faster than EfficientNet NoisyStudent. The training techniques improve transfer performance on a suite of downstream tasks (rivaling state-of-the-art self-supervised algorithms) and extend to video classification on Kinetics-400. We recommend practitioners use these simple revised ResNets as baselines for future research.
研究の動機と目的
- 訓練手法がアーキテクチャ変更に依存せずResNetの性能に及ぼす影響を評価する。
- 訓練 regime における深さ、幅、解像度を系統的にスケーリング戦略として検討し、ベストプラクティスを導き出す。
- ResNet-RSファミリーをTPU/GPUでの速度と精度を最適化するよう開発する。
- 更新されたResNetの Semi-supervised 学習および転移学習の性能を評価する。
- 改良された訓練/スケーリング戦略の一般性を映像・下流タスクなど関連タスクへ示す。
提案手法
- 現代的な訓練と正則化手法を標準的なResNetアーキテクチャに適用する。
- 訓練手法、正則化、アーキテクチャの微調整の効果を定量化するための加法的アブレーション研究を行う。
- 深さ、幅、画像解像度を全訓練期間(350 epochs)で系統的にスケールさせる。
- 異なる訓練 regime でスケーリング戦略を比較し、深さと幅のトレードオフを特定する。
- 訓練とスケーリング戦略を改善して幅広いモデルサイズに適用し、ResNet-RSを設計する。
- 擬似ラベル付きデータと下流タスクでの転移学習を用いてSemi-supervised性能を評価する。
- EfficientNetsに対する速度向上を説明するために待機遅延、メモリ、FLOPsを分析する。
実験結果
リサーチクエスチョン
- RQ1アーキテクチャ変更に依存しないResNetの性能に対する訓練手法と正則化の相互作用はどうなるか。
- RQ2不同訓練 regime 下での深さ対幅対解像度のどのスケーリング戦略が最も良い速度-精度のパレートを生むか。
- RQ3改良されたResNets(ResNet-RS)はTPU/GPUsでEfficientNetsを上回り、精度も比較可能か。
- RQ4改良された訓練とスケーリング戦略はSemi-supervised学習および下流タスク(映像含む)へ転移可能か。
主な発見
| モデル | 解像度 | Top-1 | パラメータ (M) | FLOPs (B) | TPU-v3 レイテンシ (s) | メモリ (GB) | GPU レイテンシ (s) | ノート |
|---|---|---|---|---|---|---|---|---|
| RS-350 | 256 | 84.0 | 164 | 69 | 1.1 | 7.3 | — | Table 3のEfficientNet-B6/B7と比較。 |
| ENet-B6 | 528 | 84.0 | 43 (3.8x) | 38 (1.8x) | 3.0 | 16.6 | — | EfficientNet-B6エントリ。 |
| RS-420 | 320 | 84.4 | 192 | 128 | 2.1 | 15.5 | — | 解像度が高いRSモデル。 |
| ENet-B7 | 600 | 84.7 | 66 (2.9x) | 74 (1.7x) | 6.0 | 28.3 | — | EfficientNet-B7エントリ。 |
- 訓練手法を改善するだけでResNet-200のTop-1精度が79.0%から82.2%へ向上。
- SEとResNet-Dを追加するとTop-1が83.4%に上昇(訓練手法がほとんどの利益をもたらす)。
- ResNet-RS系列はパフォーマンス同等レベルでImagenet上、TPUでEfficientNetsより1.7x–2.7x、GPUで2.1x–3.3x速くなる。
- 130Mの擬似ラベル付きデータを用いたSemi-supervised学習では、ResNet-RS-152が86.2%のTop-1を達成(EfficientNet-NoisyStudentよりTPUで4.7x速い)。
- ResNet-RSはKinetics-400の3D-ResNetを+4.0%向上(73.4%から77.4%へ)。
- 訓練を強化したResNetのチェックポイントは下流タスクの自己教師付き表現に対抗/上回る(SimCLR系に匹敵)。
- EfficientNet-RS(遅い画像スケーリング)はパレート効率を改善するが、速度-精度曲線ではResNet-RSがなお優位。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。