QUICK REVIEW

[論文レビュー] Importance Sampling for Minibatches

Dominik Csiba, Peter Richtárik|arXiv (Cornell University)|Feb 6, 2016

Stochastic Gradient Optimization Techniques参考文献 36被引用数 24

ひとこと要約

この論文は、確率的最適化におけるミニバッチにおける重要性サンプリング戦略の最初のものであり、非一様サンプリングによる分散低減とミニバッチ化を組み合わせて収束を加速する。厳密な複雑度解析を提供し、実データでは最大10倍の高速化、重尾分布を示す合成データでは数桁の改善を示している。

ABSTRACT

Minibatching is a very well studied and highly popular technique in supervised learning, used by practitioners due to its ability to accelerate training through better utilization of parallel processing power and reduction of stochastic variance. Another popular technique is importance sampling -- a strategy for preferential sampling of more important examples also capable of accelerating the training process. However, despite considerable effort by the community in these areas, and due to the inherent technical difficulty of the problem, there is no existing work combining the power of importance sampling with the strength of minibatching. In this paper we propose the first {\em importance sampling for minibatches} and give simple and rigorous complexity analysis of its performance. We illustrate on synthetic problems that for training data of certain properties, our sampling can lead to several orders of magnitude improvement in training time. We then test the new sampling on several popular datasets, and show that the improvement can reach an order of magnitude.

研究の動機と目的

確率的最適化における重要性サンプリングとミニバッチ化の原理的組み合わせの欠如に対処すること。
より情報量の多い例に高いサンプリング確率を割り当てることで、ミニバッチSGDにおける勾配推定の分散を低減すること。
一般のデータ条件下での提案手法の理論的根拠に基づく複雑度解析を提供すること。
実験的に、提案手法が合成データおよび実世界のデータセットの両方で学習を顕著に加速することを示すこと。
重要性サンプリングとミニバッチ化の組み合わせが、単なる加法的改善ではなく乗法的改善をもたらすことを示すこと。

提案手法

データ依存の重要性スコアから導出される非一様確率を用いてミニバッチを選択する、新しいサンプリング方式「tau-重要性サンプリング」を提案する。
例をバケットにグループ化し、置換抽出でバケット全体をサンプリングすることでミニバッチを構成する、バケットベースのサンプリングメカニズムを定義する。
ヘッダード積と対角行列を用いて、関連する包含確率を表す確率行列の表現を導出する。
特にコーシー＝シュバルツの不等式を活用して、サンプリング確率と分散低減の関係を示す、行列不等式を用いた理論的境界を確立する。
収束速度の分析と複雑度境界の導出に、確率行列の正規化固有値の概念を用いる。
提案フレームワークを合成データおよび実データに適用し、一様ミニバッチ化や他のベースラインと性能を比較する。

実験結果

リサーチクエスチョン

RQ1重要性サンプリングをミニバッチ化と効果的に組み合わせることで、勾配の分散を低減し、収束を加速できるか？
RQ2一般のデータ条件下での提案された重要性サンプリング付きミニバッチ手法の理論的複雑度は何か？
RQ3例の重要性にばらつきがあるデータセットにおいて、提案手法の性能は一様ミニバッチ化と比べてどうか？
RQ4重尾分布を示す重要性分布を示すデータにおいて、実際の高速化が顕著に達成できるか？
RQ5重要性サンプリングとミニバッチ化の組み合わせが、単なる加法的改善ではなく乗法的改善をもたらすか？

主な発見

重尾分布を示す合成データセットでは、一様ミニバッチ化と比較して、学習時間に数桁の改善が得られた。
実世界のデータセットでは、一様サンプリングを用いた標準的なミニバッチSGDと比較して、学習時間を最大10分の1に短縮した。
理論的解析により、重要性サンプリングによって最大のデータ依存量を平均値に置き換えることで、収束速度の主要定数が改善されることを示した。
広範な実験を通じて、一様分布、カイ二乗分布、極端な重要性分布を含むさまざまなデータタイプにおいて、手法が安定であることが示された。
複雑度解析により、勾配推定の分散が低減され、強い凸性のもとで、証明可能な高速な線形収束が達成されることを確認した。
実験結果は理論的主張を裏付け、多様なベンチマークデータセットにおいて一貫した顕著な高速化が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。