[論文レビュー] Coresets for Data-efficient Training of Machine Learning Models
CRAIGは、全勾配をよく近似する重み付きデータサブセット(コアセット)を選択し、逐次勾配法が全データを用いた場合と同じ速度で収束するようにし、実践的には大幅な速度向上をもたらします。
Incremental gradient (IG) methods, such as stochastic gradient descent and its variants are commonly used for large scale optimization in machine learning. Despite the sustained effort to make IG methods more data-efficient, it remains an open question how to select a training data subset that can theoretically and practically perform on par with the full dataset. Here we develop CRAIG, a method to select a weighted subset (or coreset) of training data that closely estimates the full gradient by maximizing a submodular function. We prove that applying IG to this subset is guaranteed to converge to the (near)optimal solution with the same convergence rate as that of IG for convex optimization. As a result, CRAIG achieves a speedup that is inversely proportional to the size of the subset. To our knowledge, this is the first rigorous method for data-efficient training of general machine learning models. Our extensive set of experiments show that CRAIG, while achieving practically the same solution, speeds up various IG methods by up to 6x for logistic regression and 3x for training deep neural networks.
研究の動機と目的
- 大規模MLにおける計算コストとエネルギーコストを削減するためのデータ効率の良いトレーニングを動機づける。
- 小さな重み付きコアセットで全勾配を近似する原理的なサブセット選択手法を開発する。
- サブセット上のIGが全データ上のIGと一致することを示す理論的収束保証を提供する。
- 凸・非凸モデルの両方に対する実用的なスピードアップと適用性を実証する。
提案手法
- 全データ集団 V に対するサブセット S の勾配推定誤差を上界化する目的関数 L(S) を定義する。
- 勾配近似の目的を単調となるサブモジュラ型のファシリティロケーション関数 F に変換し、貪欲アルゴリズムで解く。
- 勾配空間で各サブセット要素に最も近い成分の個数としてサブセットの重み gamma_j を計算する。
- S に適用した任意の IG メソッドが全データと同じエポック数で収束することを、誤差項 epsilon に結び付けて証明する。
- 全バックプロパゲーションを必要としない勾配境界の近似を含む、深いネットワークにCRAIGを適用するための実践的ガイドラインを提供する。
実験結果
リサーチクエスチョン
- RQ1重み付きの小さなデータサブセットは、IGの収束挙動を維持できる程度に全勾配を十分に近似できるか。
- RQ2凸問題に対する収束速度と最終解に対するCRAIG選択サブセットの影響はどうか。
- RQ3CRAIGサブセットは精度を落とすことなく、SGD、SAGA、SVRG、深層ネットワークのトレーニングで実質的な速度向上を提供するか。
- RQ4勾配境界を計算するのが難しい深層ネットワークにCRAIGをどう拡張できるか。
主な発見
- CRAIGはサブセット上のIGを全データ上のIGと同じ解へ収束させ、速度向上は |V|/|S| に比例する。
- 強凸問題では、CRAIGサブセット上のIGは誤差項 O(epsilon) で収束し、定数までは全データの速度で一致する。
- 実験では凸問題で最大6x、非凸の深層ネットワークで最大3xの速度増を、類似の損失と精度を達成しつつ示した。
- CRAIGサブセットは場合によってデータの10%程度と非常に小さくても全勾配を密接に近似し、ランダムサブセットを上回る。
- CRAIGはSGD、SAGA、SVRGと互換性があり、CovtypeやIjcnn1のような大規模データセットで実用的な性能向上をもたらす。
- ニューラルネットワークでは、MNISTのような2層ネットワークの実験で一般化を維持または改善しつつトレーニング時間を短縮する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。