QUICK REVIEW

[論文レビュー] Data Sketching for Faster Training of Machine Learning Models.

Baharan Mirzasoleiman, Jeff Bilmes|arXiv (Cornell University)|Jun 5, 2019

Stochastic Gradient Optimization Techniques参考文献 11被引用数 2

ひとこと要約

CRAIGは、勾配の近似を最適化するためのサブモジュラー関数を最大化することで、勾配の近似精度を高め、完全バッチのインクリメンタル勾配（IG）と同等の収束速度を達成するデータスケッチ手法を提案する。この手法により、ロジスティック回帰では最大6倍、深層ニューラルネットワークでは最大3倍の高速化が達成され、モデル性能に影響を与えることなく実現される。

ABSTRACT

Incremental gradient (IG) methods, such as stochastic gradient descent and its variants are commonly used for large scale optimization in machine learning. Despite the sustained effort to make IG methods more data-efficient, it remains an open question how to select a training data subset that can theoretically and practically perform on par with the full dataset. Here we develop CRAIG, a method to select a weighted subset (or coreset) of training data that closely estimates the full gradient by maximizing a submodular function. We prove that applying IG to this subset is guaranteed to converge to the (near)optimal solution with the same convergence rate as that of IG for convex optimization. As a result, CRAIG achieves a speedup that is inversely proportional to the size of the subset. To our knowledge, this is the first rigorous method for data-efficient training of general machine learning models. Our extensive set of experiments show that CRAIG, while achieving practically the same solution, speeds up various IG methods by up to 6x for logistic regression and 3x for training deep neural networks.

研究の動機と目的

完全バッチのインクリメンタル勾配法が示す収束特性を維持するデータサブセットの選択という課題に対処すること。
一般の機械学習モデルに適用可能な理論的裏付けのあるデータ効率の良い学習手法を開発すること。
凸最適化問題において、コアセット（coreset）上で学習させた場合に、完全データセットでの学習と同等の収束速度が達成されることを保証すること。
さまざまなモデル、例えばロジスティック回帰や深層ニューラルネットワークにおいて、モデル精度を損なうことなく学習時間を大幅に短縮すること。

提案手法

CRAIGは、完全勾配を近似するサブモジュラー関数を最大化することで、データサブセット選択問題を定式化する。
勾配近似の品質を最大化するようにデータポイントを選択することでコアセットを構築し、理論的収束保証を確保する。
勾配推定における限界的利益に基づいて点を選択するためのグリーディアルゴリズムを用い、サブモジュラリティを活用して近似的に最適な選択を実現する。
選択されたコアセットを用いてインクリメンタル勾配法における勾配計算を実行し、完全バッチ計算に置き換える。
理論的分析により、凸最適化においてIGにCRAIGのコアセットを適用した場合、完全バッチIGと同等の収束速度に達することが証明されている。
この手法は、ロジスティック回帰や深層ニューラルネットワークを含む広範なモデルに適用可能であり、最小限の変更で実装可能である。

実験結果

リサーチクエスチョン

RQ1インクリメンタル勾配法が完全バッチ法と同等の速度で収束するようなデータサブセットを選びうるか？
RQ2完全勾配を効果的に近似できる理論的裏付けのあるコアセット選択手法は存在するか？
RQ3サブモジュラー最適化を用いたデータスケッチにより、モデル精度を損なわずに顕著な学習速度の向上が達成可能か？
RQ4CRAIGの性能は、さまざまな機械学習モデルにおいて完全バッチ学習と比較してどうなるか？

主な発見

ロジスティック回帰では、CRAIGが完全データセット学習と同等のモデル性能を維持しながら、最大6倍の学習時間短縮を達成した。
深層ニューラルネットワークでは、CRAIGが完全バッチ学習と比較して顕著な精度低下なしに最大3倍の高速化を実現した。
理論的分析により、凸最適化においてCRAIGのコアセットを用いたインクリメンタル勾配法が、完全バッチ勾配降下法と同等の収束速度に達することが確認された。
本手法は、一般の機械学習モデルに適用可能なデータ効率の良い学習のための理論的保証を初めて提供した。
実験的結果から、CRAIGのコアセット選択により、完全データセットの勾配近似と類似した勾配近似が得られることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。