[論文レビュー] GradAug: A New Regularization Method for Deep Neural Networks
GradAugは、完全なネットワークから幅(チャネル数)をランダムに抽出してサンプリングされたサブネットワークに、ランダムな画像変換(例:スケーリング、クロップ)を適用することで一般化性能を向上させる、深層ニューラルネットワークのための新しい正則化手法である。これらの変換を通じて自己誘導型勾配攪乱を導入することで、ImageNetにおけるResNet-50のトップ1精度を78.79%まで向上させ、CutMixを組み合わせると79.67%にまで向上させ、検出、セグメンテーション、およびノイズや adversarial 攻撃に対する耐性の分野で最先端の手法を上回った。
We propose a new regularization method to alleviate over-fitting in deep neural networks. The key idea is utilizing randomly transformed training samples to regularize a set of sub-networks, which are originated by sampling the width of the original network, in the training process. As such, the proposed method introduces self-guided disturbances to the raw gradients of the network and therefore is termed as Gradient Augmentation (GradAug). We demonstrate that GradAug can help the network learn well-generalized and more diverse representations. Moreover, it is easy to implement and can be applied to various structures and applications. GradAug improves ResNet-50 to 78.79% on ImageNet classification, which is a new state-of-the-art accuracy. By combining with CutMix, it further boosts the performance to 79.67%, which outperforms an ensemble of advanced training tricks. The generalization ability is evaluated on COCO object detection and instance segmentation where GradAug significantly surpasses other state-of-the-art methods. GradAug is also robust to image distortions and FGSM adversarial attacks and is highly effective in low data regimes. Code is available at https://github.com/taoyang1122/GradAug
研究の動機と目的
- 過パラメータ化された深層ニューラルネットワークにおける過学習を緩和すること、特にデータが少ない状況や検出・セグメンテーションなどの下流タスクにおいて有効であることを目的とする。
- CutMixなどのサンプルミキシング技術が引き起こす意味的・ラベルの曖昧性を避けるため、タスクに依存しない正則化手法を開発すること。
- 自己誘導型勾配攪乱を通じて、多様で頑健な表現を促進することで、モデルの一般化性能を向上させること。
- さまざまなアーキテクチャやビジョンタスクに広く適用可能な、シンプルで効果的かつ実用的な正則化技術を構築すること。
提案手法
- GradAugは、トレーニング中に完全なネットワークの各層の幅(チャネル数)をランダムに削減することでサブネットワークをサンプリングする。
- 入力画像に対して、ランダムスケーリング、クロップ、回転、フリップなどのランダムな画像変換を適用し、それらを異なるサブネットワークに供給する。
- 完全なネットワークの重みはサブネットワーク間で共有され、知識の転送と共同最適化が可能になる。
- 同じ変換を施された入力に対して完全なネットワークが出力するソフトラベルを用いて、別個の教師モデルを必要としない知識蒸留を実現する。
- 多様で変換された入力にサブネットワークを晒すことで、勾配レベルの攪乱を導入し、頑健で多様な特徴学習を促進する。
- 既存のデータオーグメンテーションと互換性があり、CutMixなどの技術と組み合わせてさらなる性能向上が可能である。
実験結果
リサーチクエスチョン
- RQ1サブネットワーク学習を通じて自己生成された勾配攪乱を活用する正則化手法が、深層ネットワークの一般化性能を向上させることができるか?
- RQ2画像分類、検出、セグメンテーションの分野において、GradAugは最先端のデータオーグメンテーションおよび構造的正則化手法と比較してどのように性能を発揮するか?
- RQ3GradAugは画像のノイズやFGSM攻撃に対して、モデルの耐性を高めることができるか?
- RQ4現在のSOTA手法が性能を発揮しない低データ環境(例:CIFAR-10で250〜4000ラベル)において、GradAugは一貫して優れた性能を発揮するか?
- RQ5CutMixなどの既存のデータオーグメンテーション技術と組み合わせることで、GradAugはさらに精度を向上させることができるか?
主な発見
- GradAugにより、ImageNetにおけるResNet-50のトップ1精度が78.79%まで向上し、新たなSOTAを樹立した。
- CutMixと組み合わせた場合、ImageNetにおけるトップ1精度は79.67%にまで上昇し、高度なトレーニングテクニックのアンサンブルを上回った。
- COCOオブジェクト検出およびインスタンスセグメンテーションにおいて、GradAugはImageNet事前学習重みのみを用いてMask R-CNN-R50のボックスAPを+1.2、マスクAPを+1.2向上させた。
- 検出フレームワークに直接適用した場合、ベースラインからボックスAPが+1.7、マスクAPが+2.1向上した。
- GradAugは画像のノイズやFGSM攻撃に対して強く頑健であることが実証され、ベースラインモデルを上回った。
- 低データ環境(例:CIFAR-10で250〜4000ラベル)においても、GradAugは一貫してベースラインを上回る性能を発揮したが、現在のSOTA手法はこのような状況で性能を発揮しなかった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。