QUICK REVIEW

[論文レビュー] Automated Machine Learning on Big Data using Stochastic Algorithm Tuning

Thomas E. Nickson, Michael A. Osborne|arXiv (Cornell University)|Jul 30, 2014

Gaussian Processes and Bayesian Inference参考文献 26被引用数 20

ひとこと要約

本稿では、大規模データにおける機械学習のハイパーパramータチューニングを自動化するために、Nyström近似を用いたスパースガウス過程を組み合わせたスケーラブルな確率的ベイズ最適化フレームワークStoatを提案する。性能評価をデータサブセット上で行うことで、計算負荷を抑えつつ、ノイズありでスケーラブルな最適化を実現し、コンsumerハードウェア上でも1時間未満で収束する。実世界の時系列データにおいて、最先端の結果を達成した。

ABSTRACT

We introduce a means of automating machine learning (ML) for big data tasks, by performing scalable stochastic Bayesian optimisation of ML algorithm parameters and hyper-parameters. More often than not, the critical tuning of ML algorithm parameters has relied on domain expertise from experts, along with laborious hand-tuning, brute search or lengthy sampling runs. Against this background, Bayesian optimisation is finding increasing use in automating parameter tuning, making ML algorithms accessible even to non-experts. However, the state of the art in Bayesian optimisation is incapable of scaling to the large number of evaluations of algorithm performance required to fit realistic models to complex, big data. We here describe a stochastic, sparse, Bayesian optimisation strategy to solve this problem, using many thousands of noisy evaluations of algorithm performance on subsets of data in order to effectively train algorithms for big data. We provide a comprehensive benchmarking of possible sparsification strategies for Bayesian optimisation, concluding that a Nystrom approximation offers the best scaling and performance for real tasks. Our proposed algorithm demonstrates substantial improvement over the state of the art in tuning the parameters of a Gaussian Process time series prediction task on real, big data.

研究の動機と目的

全データの尤度評価が計算的に不可能な大規模データにおける機械学習のハイパーパramータチューニングを自動化する課題に対処すること。
高頻度評価環境下で標準的なガウス過程を用いたベイズ最適化のO(N³)スケーリングボトルネックを克服すること。
サブセットサンプリングに起因するノイズの多い評価が一般的な大規模データ環境下でも、勾配を必要とせずに、頑健な最適化を可能にすること。
実世界の複雑でマルチモーダルな最適化問題において、迅速に収束する実用的でスケーラブルなフレームワークを開発すること。
データサブセット上の確率的評価を、原理的で整合性のあるベイズ最適化フレームワーク内でのノイズあり観測として効果的にモデル化できることを示すこと。

提案手法

誘導点数m ≪ Nであるmを用いて、O(N³)の推論コストをO(Nm²)に削減するスパースガウス過程とNyström近似を採用する。
ランダムなデータサブセット上の性能評価を、潜在的な目的関数のノイズあり観測として扱い、確率的最適化を可能にする。
各反復で不確実性を表現し、獲得関数の選択をガイドするための確率的代理モデル（スパースGP）を用いる。
探索と活用のバランスを取るために、獲得関数（例：期待改善）を適用する。
初期収束を加速させ、無駄な探索ステップを減らすために、設計空間をSobol系列を用いて事前にサンプリングする。
不確実性と期待改善に基づき、動的に新しい評価点を選択する逐次モデルベース最適化ループにフレームワークを統合する。

実験結果

リサーチクエスチョン

RQ1スパースガウス過程を用いた確率的ベイズ最適化は、大規模データ機械学習タスクに必要な数千件のノイズあり評価にスケーラブルに拡張可能か？
RQ2実世界の機械学習ハイパーパramータチューニングにおいて、スケーラビリティと予測性能の両面で、Nyström近似は他のスパーシフィケーション戦略と比較してどのように優れているか？
RQ3データサブセット上の確率的評価を、マルチモーダルかつ高次元空間におけるグローバル最適解の探索を可能にするベイズ最適化フレームワーク内で、ノイズあり観測として効果的にモデル化できるか？
RQ4本手法は、実際の大規模データセットにおいて、収束速度および最終的なモデル性能の面で、既存の最先端手法を上回るか？
RQ5高い予測精度を維持しつつ、高価な全データ尤度評価の必要性をどの程度低減できるか？

主な発見

Stoatは、二重周期的カーネルを用いて実際の家庭の電力使用量データに対してテスト尤度を-7.25まで達成し、[27]の単一周期的モデル（尤度：-7.40）および非周期的GP（-9.22）を上回った。
マルチモーダルな探索空間にもかかわらず、コンsumerグレードのラップトップ上で1時間未満で382日周期（約1年）と1.5日周期（1日サイクル）に収束した。
事前サンプリングフェーズ（600個のSobol点）はわずか5分で完了し、無駄な探索ステップの数を顕著に削減し、収束を加速させた。
ベイズ最適化ループの各反復は20〜30秒で実行され、評価数が2,500件に増加しても顕著な遅延が見られなかった。
フレームワークは、スパースGP代理モデルを用いて、データサブセットからのノイズありで確率的な尤度評価を効果的にモデル化することで、ノイズへのロバストネスとスケーラビリティを示した。
テストされたスパーシフィケーション戦略の中で、Nyström近似が計算効率と予測性能の両面で最良のトレードオフを提供することが判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。