Skip to main content
QUICK REVIEW

[論文レビュー] Active Bias: Training More Accurate Neural Networks by Emphasizing High Variance Samples

Haw-Shiuan Chang, Erik Learned-Miller|arXiv (Cornell University)|Apr 24, 2017
Machine Learning and Algorithms参考文献 46被引用数 130
ひとこと要約

本論文は、SGD中に不確かなサンプルを強調する2つの軽量なアクティブバイア再重み付け戦略を導入し、データセットおよびアーキテクチャを跨いだニューラルネットワークの精度と堅牢性を向上させる。

ABSTRACT

Self-paced learning and hard example mining re-weight training instances to improve learning accuracy. This paper presents two improved alternatives based on lightweight estimates of sample uncertainty in stochastic gradient descent (SGD): the variance in predicted probability of the correct class across iterations of mini-batch SGD, and the proximity of the correct class probability to the decision threshold. Extensive experimental results on six datasets show that our methods reliably improve accuracy in various network architectures, including additional gains on top of other popular training techniques, such as residual learning, momentum, ADAM, batch normalization, dropout, and distillation.

研究の動機と目的

  • ラベルノイズの仮定に依存せず、容易な例と難しい例のバランスをとることで堅牢な学習を促進する。
  • 予測分散と閾値近接に基づく再重み付けという、SGDをバイアスづけるための2つの軽量な不確実性ベースの手法を開発する。
  • アクティブバイアが複数のデータセットとアーキテクチャにおいて汎化性能を改善することを示す。
  • 既存の訓練手法との適合性と、さまざまなノイズ条件下での有効性を示す。

提案手法

  • ミニバッチ SGD中に不確実なサンプルを強調する2つのアクティブバイア手法を提案する:SGD-WPV(予測分散で重み付け)と SGD-WTC(閾値近接で重み付け)。
  • 予測確率の履歴から予測分散を推定し、サンプリングや重み付けを指針とする;burn-inエポック後の後方パラメータの不確実性を仮定。
  • 閾値近接目的を用い、サンプルを p(y|x)^*(1-p(y|x)) の積で重み付けして、境界サンプルを対象とする。
  • バイアスを適用する前に不確実性推定を安定化させるための burn-in 期間を提供する。
  • サンプリング対損失重み付けのバリアント(SGD-SPV、SGD-WPV、SGD-STC、SGD-WTC)を、均一な SGD、SGD-SD、SGD-ISD の基準と比較する。
  • 標準の最適化手法と訓練技術(モーメント、Adam、バッチ正規化、ドロップアウト、蒸留)との適合性を示す。

実験結果

リサーチクエスチョン

  • RQ1SGD中に不確実または高分散のサンプルを強調することは、タスクやアーキテクチャを跨いだ汎化を改善するのか。
  • RQ2分散ベースおよび閾値ベースの不確実性指標は、ノイズやラベルの改ざんに対して有効で頑健か。
  • RQ3アクティブバイア手法は、一般的な訓練技術(例:モーメント、ADAM、バッチ正規化、蒸留)とどのように相互作用するのか。
  • RQ4アクティブバイアを適用する際、信頼できる不確実性推定には burn-in が必要か。
  • RQ5簡単なデータと難しい/ノイズのあるデータセットの両方で訓練する場合に、これらの手法は利益をもたらすのか。

主な発見

  • アクティブバイア手法は、6つのデータセットと複数のアーキテクチャにわたり、常に SGD-Uni および SGD-Scan を上回る。
  • SGD-WPV と SGD-WD は、ノイズがある設定(例えば Noisy MNIST)を含む堅牢な改善を示す。
  • 閾値ベースの重み付け(SGD-WTC/SGD-STC)は、CIFARやNLPタスクを含むいくつかの実験で競争力のある、または優れた結果を達成する。
  • 蒸留を用いると、アクティブバイア手法(特に SGD-WTC)は蒸留単独と同等かそれを上回ることがあり、互換性を示す。
  • 単純なロジスティック回帰ベースラインから深い残差ネットワークまで、改善が持続することから、広い適用性が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。