[論文レビュー] Towards Understanding Label Smoothing
本稿では、勾配の分散を低減し収束を加速するために初期学習エポックでラベルスムージング正則化(LSR)を適用し、その後標準のワンホットラベルに切り替える、新しい訓練戦略「Two-Stage Label Smoothing(TSLA)」を提案する。TSLAはResNetモデルにおいてより速い収束と向上した一般化性能を達成し、CIFAR-100およびImageNetベンチマークで最先端の精度を達成しており、理論的分析と広範な実験によって検証されている。
Label smoothing regularization (LSR) has a great success in training deep neural networks by stochastic algorithms such as stochastic gradient descent and its variants. However, the theoretical understanding of its power from the view of optimization is still rare. This study opens the door to a deep understanding of LSR by initiating the analysis. In this paper, we analyze the convergence behaviors of stochastic gradient descent with label smoothing regularization for solving non-convex problems and show that an appropriate LSR can help to speed up the convergence by reducing the variance. More interestingly, we proposed a simple yet effective strategy, namely Two-Stage LAbel smoothing algorithm (TSLA), that uses LSR in the early training epochs and drops it off in the later training epochs. We observe from the improved convergence result of TSLA that it benefits from LSR in the first stage and essentially converges faster in the second stage. To the best of our knowledge, this is the first work for understanding the power of LSR via establishing convergence complexity of stochastic methods with LSR in non-convex optimization. We empirically demonstrate the effectiveness of the proposed method in comparison with baselines on training ResNet models over benchmark data sets.
研究の動機と目的
- ラベルスムージング正則化(LSR)が深層学習の最適化に与える影響を理論的に理解すること。
- 非凸設定における確率的勾配降下法(SGD)の収束行動を分析すること。
- LSRの利点を活用しながら、後期学習における潜在的な欠点を回避する実用的な訓練戦略を開発すること。
- 後段の学習段階でスムージングラベルからワンホットラベルに切り替えることで、一般化性能と収束速度が向上することを実証的に示すこと。
提案手法
- 初期学習エポックでLSRを適用し、後続段階でそれを解除する「Two-Stage Label Smoothing(TSLA)」を提案する。
- ラベルスムージング変換を用いる:y^LS = (1−θ)y + θŷ、ここでŷは一様分布または事前学習済みモデルの出力分布である。
- LSRを用いたSGDの収束を分析し、適切なLSRが勾配の分散を低減し、反復複雑度を改善することを示す。
- 二段階訓練プロトコルを採用:最初のsエポックでLSRで学習し、残りのエポックでは標準のワンホットラベルに切り替える。
- 性能向上のため、分散を低減するために事前学習済みモデルの出力を用いてŷを生成する。
- ImageNetおよびCIFAR-100で、学習率の減衰と重み減衰を伴うResNet-18およびResNet-50で標準的な訓練プロトコルを採用する。
実験結果
リサーチクエスチョン
- RQ1ラベルスムージング正則化(LSR)は、非凸最適化における確率的勾配降下法(SGD)の収束にどのように影響するか?
- RQ2LSRは勾配の分散を低減し、深層学習の訓練における収束を加速させることができるか?
- RQ3性能を最大化するために、LSRを学習のどのタイミングで無効化するのが最適か?
- RQ4後期学習段階でスムージングラベルからワンホットラベルに切り替えることで、一般化性能と収束速度が向上するか?
- RQ5スムージング分布の選択(一様分布対して事前学習済みモデルの出力)が性能に与える影響は何か?
主な発見
- LSRを160エポック適用し、その後ワンホットラベルに切り替えたTSLAは、CIFAR-100でトップ-1精度78.55%を達成し、すべてのベースラインを上回った。
- TSLA-pre(160)はトップ-1精度78.55%、トップ-5精度94.83%を達成し、CIFAR-100で全手法中最良の結果を示した。
- ImageNetでは、TSLA(50)が標準LSRよりも0.5%、ベースラインよりも0.7%高いトップ-1精度を達成した。
- 理論的分析により、適切なLSRが勾配の分散を低減し、収束の複雑度を改善することが確認された。
- 120~180エポックの間でLSRからワンホットラベルに切り替えることで、収束が一貫して加速し、テスト精度が向上した。
- 事前学習済みモデルの出力をスムージングに用いる(TSLA-pre)と、一様スムージングに比べて顕著に性能が向上し、低分散ラベル分布の重要性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。