QUICK REVIEW

[論文レビュー] A Multi-Batch L-BFGS Method for Machine Learning

Albert S. Berahas, Jorge Nocedal|arXiv (Cornell University)|May 19, 2016

Stochastic Gradient Optimization Techniques参考文献 26被引用数 27

ひとこと要約

本稿では、重複するデータバッチを活用することで、同期のオーバーヘッドがなく大バッチ最適化を効率的に行えるようにする、耐障害性のあるマルチバッチ L-BFGS 法を提案する。この手法により、勾配が異なるデータサブセットで計算されても、ヘシアンの安定した近似が可能となり、通信コストを最小限に抑えつつ、凸および非凸問題において強力な収束性とスケーラビリティを示す。

ABSTRACT

The question of how to parallelize the stochastic gradient descent (SGD) method has received much attention in the literature. In this paper, we focus instead on batch methods that use a sizeable fraction of the training set at each iteration to facilitate parallelism, and that employ second-order information. In order to improve the learning process, we follow a multi-batch approach in which the batch changes at each iteration. This can cause difficulties because L-BFGS employs gradient differences to update the Hessian approximations, and when these gradients are computed using different data points the process can be unstable. This paper shows how to perform stable quasi-Newton updating in the multi-batch setting, illustrates the behavior of the algorithm in a distributed computing platform, and studies its convergence properties for both the convex and nonconvex cases.

研究の動機と目的

分散または非同期設定において、勾配が異なるデータバッチで計算される場合に生じる L-BFGS の不安定性を解消すること。
厳密なデータ一貫性や同期を要しない大バッチ最適化を可能にすること。
部分的または遅延したノードの応答に対しても収束性と安定性を維持するフォールトトレラントな準ニュートン法を開発すること。
計算コストと通信コストのバランスを取るために、安定したヘシアン更新のための重複バッチを用いること。

提案手法

本手法は、勾配差分の代わりに、連続するバッチの共通部分（重複）に基づいて準ニュートン更新を実行する。
不一致したデータサンプリングによる不安定性を回避するため、ヘシアン更新にのみ重複するデータポイントに依存する、耐障害性のある L-BFGS 定式化を採用する。
各反復で O(d) 演算で探索方向を効率的に計算できる、ベクトルフリーな L-BFGS 実装を用いる。
MPI を用いた分散プラットフォームを想定し、応答のないノードを無視することで、更新プロセスに影響を与えずにフォールトトレランスを達成する。
収束性の解析のため、固定ステップ長戦略を用い、凸および非凸設定の両方で安定性を確保する。
実世界のデータセット（kddb, url）および人工データを用いて、強スケーリングおよび弱スケーリングの特性を評価する。

実験結果

リサーチクエスチョン

RQ1勾配が異なるデータサブセットで計算されるマルチバッチ設定において、安定した準ニュートン更新が達成可能か？
RQ2分散システムにおけるデータの不一致やノード障害が生じる状況下でも、提案手法の収束性と頑健性はどのように評価できるか？
RQ3L-BFGS の安定性および性能に、バッチの重複サイズがどのように影響するか？
RQ4異なる問題サイズおよびハードウェア構成において、計算コストと通信コストの両面から、この手法のスケーリング特性はいかがなものか？
RQ5通信オーバーヘッドを低く抑えつつ、標準 L-BFGS や SGD よりも高速な収束を達成できるか？

主な発見

勾配が異なるデータバッチで計算されても、ヘシアンの近似が安定する。これは、更新にのみ重複するデータポイントに依存するためである。
kddb および url データセットにおいて、故障（例：30％のノード障害率）が発生しても、標準 L-BFGS よりも優れた性能を示し、10回の実行で一貫した平均性能を達成した。
強スケーリング実験では、MPI プロセス数が増加するにつれて勾配計算および L-BFGS 計算時間が短縮されるが、通信オーバーヘッドが一定の点を過ぎると性能向上が制限される。
弱スケーリング実験では、データサイズをプロセス数に比例して増加させた場合、プロセスあたりの勾配計算時間がほぼ一定に保たれ、良好な負荷分散が確認された。
10^7 個のサンプルと d=10^4 の問題において、128 プロセスで 192GB のデータを 1 反復あたり 0.1 秒未塔で処理可能であり、エポック時間は約 1 秒であると示唆された。
問題の次元 d の増加は勾配計算時間にやや影響を及ぼすが、L-BFGS 方向計算にはより顕著な影響を及ぼす。特に通信を含めた場合に顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。