Skip to main content
QUICK REVIEW

[論文レビュー] A MapReduce based distributed SVM algorithm for binary classification

Ferhat Özgür Çatak, M. Erdal Balaban|arXiv (Cornell University)|Dec 15, 2013
Machine Learning and Data Classification被引用数 2
ひとこと要約

この論文では、データセットをノード間で分割することでクラウドコンピューティングシステム上でスケーリング可能な、マップレッドュースベースの分散SVMアルゴリズムを提案している。サポートベクタを反復的に収集・統合することで、2値分類のための訓練を実現している。この手法は、手書き数字データセットで最大7.78倍の高速化を達成し、5〜10回の反復でほぼ最適な精度に収束し、HadoopとLibSVMを用いた大規模データ処理においてスケーラビリティと安定性を示している。

ABSTRACT

Although Support Vector Machine (SVM) algorithm has a high generalization property to classify for unseen examples after training phase and it has small loss value, the algorithm is not suitable for real-life classification and regression problems. SVMs cannot solve hundreds of thousands examples in training dataset. In previous studies on distributed machine learning algorithms, SVM is trained over a costly and preconfigured computer environment. In this research, we present a MapReduce based distributed parallel SVM training algorithm for binary classification problems. This work shows how to distribute optimization problem over cloud computing systems with MapReduce technique. In the second step of this work, we used statistical learning theory to find the predictive hypothesis that minimize our empirical risks from hypothesis spaces that created with reduce function of MapReduce. The results of this research are important for training of big datasets for SVM algorithm based classification problems. We provided that iterative training of split dataset with MapReduce technique; accuracy of the classifier function will converge to global optimal classifier function's accuracy in finite iteration size. The algorithm performance was measured on samples from letter recognition and pen-based recognition of handwritten digits dataset.

研究の動機と目的

  • 高いカーネル行列の計算複雑性のため、単一マシン上での大規模SVMの訓練が計算的に非現実的であるという問題に対処すること。
  • クラウドコンピューティングとマップレッドュースパラダイムを用いて、スケーラブルな分散SVM訓練を可能にすること。
  • 反復的なサポートベクタの統合を通じて構造的リスク最小化を活用することで、高い一般化性能を維持すること。
  • 実世界のデータセット(文字認識や数字認識など)において収束性とパフォーマンスの向上を実証すること。

提案手法

  • Hadoopを基盤とするクラウド環境で、マップレッドュースを用いて複数のノードに訓練データを分散配置する。
  • 各データパーティションに対してLibSVMを用いてローカルなSVM分類器を訓練し、各ノードからサポートベクタ(SVs)を抽出する。
  • リダースフェーズで、すべてのローカルSVsを次の反復用のグローバルなサポートベクタ集合に統合する。
  • 更新されたグローバルSVsに基づいて反復的に再訓練を行い、収束するまで分類器を精緻化する。
  • 正答率とへッジ損失の安定性を評価するために10分割交差検証を適用する。
  • マップレッドュースの訓練時間と単一ノードベースラインとの比較により、スループットの向上を測定する。

実験結果

リサーチクエスチョン

  • RQ1マップレッドュースベースの分散SVMは、大規模な2値分類データセットで顕著な高速化を達成できるか?
  • RQ2ノード間でサポートベクタを反復的に統合することで、グローバル最適分類器に収束するか?
  • RQ3分散訓練プロセスにおいて、反復回数に応じてサポートベクタの数とへッジ損失はどのように変化するか?
  • RQ4データセットのサイズとノード数の増加が、訓練パフォーマンスと正答率に与える影響は何か?

主な発見

  • 提案手法は、10台の計算ノードを用いて、文字認識データセットで最大6.42倍の高速化、ペン入力数字認識データセットで最大7.78倍の高速化を達成した。
  • へッジ損失は反復に伴い著しく低下し、第5反復で安定化した。これは、低実現誤差への収束を示している。
  • 第10反復時点で、数字認識データセットでは約3,000件、文字認識データセットでは約560件のサポートベクタに安定化した。
  • テスト正答率は第5反復でピークに達し、以降も安定した。これは、ほぼグローバル最適解への収束を確認している。
  • 平均へッジ損失は、第3反復後に文字認識データセットで0.00005まで低下し、高い一般化性能を維持した。
  • カーネル計算と反復的精緻化をクラウドノードに分散することで、この手法は大規模データにおけるSVM訓練のスケーリングに成功した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。