QUICK REVIEW

[論文レビュー] Machine Learning and Cloud Computing: Survey of Distributed and SaaS Solutions

Daniel Pop|arXiv (Cornell University)|Mar 29, 2016

Graph Theory and Algorithms参考文献 9被引用数 53

ひとこと要約

2012年のこのサーベイは、機械学習（ML）とクラウドコンピューティングの統合を検討し、5つのクラスに解決策を分類する：クラウドホステッドML環境、プラグイン拡張型ツール（例：R、Python）、分散MLライブラリ（例：Apache Mahout、GraphLab）、オンプレミスの複雑なシステム、MLとしてのSaaS。クラウドベースのMLの採用が拡大しているにもかかわらず、非エキスパートユーザーの使いやすさに深刻なギャップがあることが特定され、医療や金融などの分野の研究者や実務家を対象に、より使いやすくスケーラブルなシステムの必要性が提起されている。

ABSTRACT

Applying popular machine learning algorithms to large amounts of data raised new challenges for the ML practitioners. Traditional ML libraries does not support well processing of huge datasets, so that new approaches were needed. Parallelization using modern parallel computing frameworks, such as MapReduce, CUDA, or Dryad gained in popularity and acceptance, resulting in new ML libraries developed on top of these frameworks. We will briefly introduce the most prominent industrial and academic outcomes, such as Apache Mahout, GraphLab or Jubatus. We will investigate how cloud computing paradigm impacted the field of ML. First direction is of popular statistics tools and libraries (R system, Python) deployed in the cloud. A second line of products is augmenting existing tools with plugins that allow users to create a Hadoop cluster in the cloud and run jobs on it. Next on the list are libraries of distributed implementations for ML algorithms, and on-premise deployments of complex systems for data analytics and data mining. Last approach on the radar of this survey is ML as Software-as-a-Service, several BigData start-ups (and large companies as well) already opening their solutions to the market.

研究の動機と目的

伝統的なライブラリがパフォーマンスとスケーラビリティの制限により失敗するビッグデータにおける機械学習のスケーリングという増大する課題に対処する。
クラウドコンピューティングと分散フレームワーク（例：MapReduce、Hadoop、CUDA）がどのようにスケーラブルなML処理を可能にするかを検証する。
SaaS、PaaS、オンプレミスシステムを含む、クラウド上の新興MLソリューションを分類・分析し、使いやすさとユーザー支援のギャップを特定する。
既存のツールに、科学的および産業分野の非エキスパートユーザー向けのガイドラインやカスタマイズ性が欠如していることを強調する。
深くプログラミングや統計の専門知識を必要とせずに、高度な科学的タスクをサポートできる、スケーラブルで使いやすい分散MLシステムの構築の必要性を提言する。

提案手法

導入形態と抽象化レベルに基づき、5つの明確なクラスに分類された既存のMLソリューションを分類する：クラウドホステッド環境、プラグイン拡張型ツール、分散ライブラリ、複雑なオンプレミスシステム、SaaSプラットフォーム。
各カテゴリに属する代表的なツールやプラットフォームを分析する。例：Apache Mahout、GraphLab、Jubatus、クラウド上のRおよびPython、AlchemyAPIやYahoo! コンテンツ分析などのSaaSプロバイダー。
各ソリューションの技術スタックを評価し、基盤インfra（Hadoop、Dryad、クラウドクラスタ）、プログラミングモデル（MapReduce、MPI）、統計環境との統合に注目する。
特に、高度なプログラミングや統計のトレーニングを受けたことがないエンドユーザーにとっての、機能性、カスタマイズ性、使いやすさのトレードオフを評価する。
市場調査と文献レビューを用いてソリューションを比較し、ユーザーのガイドラインの欠如と、低レベルのシステム制御または硬直的でブラックボックスなSaaSモデルの支配を強調する。
既存の分散MLフレームワークに、科学的および分野特化応用のための使いやすさとユーザー支援機能を強化するという、今後の研究の方向性を提言する。

実験結果

リサーチクエスチョン

RQ1クラウドコンピューティングと分散コンピューティングフレームワークは、ビッグデータにおけるスケーラブルな機械学習をどのように可能にしたか？
RQ2既存の分散およびSaaSベースのMLソリューション間における、主なアーキテクチャ的およびデプロイメント上の違いは何か？
RQ3現在のMLプラットフォームが、プログラミングや統計の専門知識が限られたエンドユーザーをどうしてサポートできないのか？
RQ4既存のSaaSおよびPaaS MLプラットフォームのアルゴリズムのカスタマイズ性と拡張性にどのような制限があるか？
RQ5科学および産業分野の非エキスパート実務家を対象に、スケーラブルで使いやすく拡張性のある分散MLシステムを構築するための設計原則は何か？

主な発見

MapReduceとMPIは、ML-DMアルゴリズムにおける大規模並列処理を表現する主要なパラダイムであり、障害耐性と使いやすさのおかげでMapReduceが人気を博している。
R や Python などの統計ツールをクラスターやプラグイン経由でクラウド上でデプロイすることで大規模データ分析が可能になるが、ネイティブ統合やユーザーのガイドラインが欠如している。
Apache Mahout や GraphLab、Jubatus などの分散MLライブラリは、コアアルゴリズムの並列実装を提供するが、導入やチューニングに顕著な専門知識を要する。
複雑なオンプレミスシステムは高いパフォーマンスを発揮するが、高コストかつ保守が困難なため、大企業以外の採用は限定的である。
AlchemyAPI や TextProcessing、Yahoo! コンテンツ分析などのSaaSおよびPaaSプロバイダーは、テキストマイニングや自然言語処理のための使いやすいAPIを提供するが、カスタマイズ性に欠け、高度なMLタスクには不適切である。
MLソリューションの増加にもかかわらず、使いやすさとユーザー支援のギャップ、特に非エキスパートユーザーにおいて顕著であり、研究者やデータ集積分野の実務家を対象に、スケーラブルで使いやすい新しい分散MLプラットフォームの構築の必要性が浮き彫りになっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。