Skip to main content
QUICK REVIEW

[論文レビュー] Towards Geo-Distributed Machine Learning

Ignacio Cano, Markus Weimer|arXiv (Cornell University)|Mar 30, 2016
Privacy-Preserving Technologies in Data参考文献 29被引用数 27
ひとこと要約

本論文は、グローバル分散型機械学習(GDML)を紹介し、生データを局所化することでクロスデータセンター間帯域幅を削減し、データ主権規制への準拠を向上させる通信効率の高いマルチデータセンター学習システムを提案する。CoCoA などのスパース通信アルゴリズムを活用することで、中央集権的な手法と比較して、帯域幅使用量が桁違いに低減されつつ、競争力のある学習性能を維持する。

ABSTRACT

Latency to end-users and regulatory requirements push large companies to build data centers all around the world. The resulting data is "born" geographically distributed. On the other hand, many machine learning applications require a global view of such data in order to achieve the best results. These types of applications form a new class of learning problems, which we call Geo-Distributed Machine Learning (GDML). Such applications need to cope with: 1) scarce and expensive cross-data center bandwidth, and 2) growing privacy concerns that are pushing for stricter data sovereignty regulations. Current solutions to learning from geo-distributed data sources revolve around the idea of first centralizing the data in one data center, and then training locally. As machine learning algorithms are communication-intensive, the cost of centralizing the data is thought to be offset by the lower cost of intra-data center communication during training. In this work, we show that the current centralized practice can be far from optimal, and propose a system for doing geo-distributed training. Furthermore, we argue that the geo-distributed approach is structurally more amenable to dealing with regulatory constraints, as raw data never leaves the source data center. Our empirical evaluation on three real datasets confirms the general validity of our approach, and shows that GDML is not only possible but also advisable in many scenarios.

研究の動機と目的

  • グローバルに分散されたデータ上で機械学習モデルをトレーニングする課題を扱い、クロスデータセンター間の帯域幅を最小限に抑え、データ主権規制に準拠する。
  • トレーニングのために地理的に分散されたデータを中央集権的に集約するという一般的な慣習に挑戦し、高い帯域幅コストと規制リスクを回避する。
  • 生データをその場に保ち、モデル統計情報のみを転送するように設計されたグローバル分散型学習システムを設計・評価し、インfraストラクチャコストを削減する。
  • 通信効率の高いアルゴリズムが、大規模な機械学習ワークロードにおいて分散型トレーニングを実用的かつコスト効率の良いものにできるかどうかを実証する。
  • 地球規模でプライバシーに配慮した機械学習に特化した、新たなシステムおよびアルゴリズムの基盤を築く。

提案手法

  • Apache Hadoop YARN および Apache REEF を拡張し、クロスデータセンター間の連携をサポートするマルチデータセンター機械学習ワークロードを実現する。
  • 通信回数を最小限に抑える通信スパースな双対最適化アルゴリズム(CoCoA)を採用する。
  • 局所モデルを各データセンターで独立してトレーニングし、勾配または双対変数のみを交換するプライマル・デュアル分解アプローチを採用する。
  • 性能と帯域幅効率を評価するために、$l_2$-正則化付きロジスティック回帰をベースモデルとして採用する。
  • 生データをデータセンター間で転送しないように設計し、データローカリティと規制準拠を維持する。
  • 最小限のクロスデータセンター通信でグローバルモデルに収束するための反復的改善を採用する。

実験結果

リサーチクエスチョン

  • RQ1通信効率の高いアルゴリズムを用いたグローバル分散型トレーニングは、中央集権的データレプリケーションと比較して、より低いクロスデータセンター間帯域幅使用量を達成できるか?
  • RQ2データストリーミングが利用可能な場合、グローバル分散型トレーニングの学習実行時間および収束速度は中央集権的トレーニングと比べてどの程度か?
  • RQ3グローバル分散型学習は、中央集権的アプローチと比較して、規制的およびデータ主権の課題をどの程度軽減できるか?
  • RQ4特にクロスデータセンター間帯域幅が限られている状況において、分散型トレーニングの通信オーバーヘッドはスケーラブルに管理可能でコスト効率が良いと評価できるか?
  • RQ5データセンターが障害発生または到達不能になった場合、グローバル分散型環境におけるフェイルセーフ性は、中央集権的システムと比較してどの程度か?

主な発見

  • グローバル分散型アプローチにより、中央集権的レプリケーションと比較して、クロスデータセンター間帯域幅消費量が桁違いに削減され、インfraストラクチャコストが顕著に低減される。
  • データストリーミングが利用可能な中央集権的トレーニングは、より速い学習実行時間を達成するが、分散型アプローチは帯域幅コストを著しく削減し、大規模な展開においてより経済的である。
  • 提案されたシステムは、生データを各データセンターに局所化したまま、中央集権的トレーニングと同等のモデル精度を維持するのに成功している。
  • 通信効率の高いアルゴリズム CoCoA は、最小限のデータ転送で効果的なモデル収束を可能にし、実世界のグローバル分散型ワークロードにおいて実用的であることが実証された。
  • グローバル分散型アプローチは、生データがその本来のデータセンターから一切出ないため、データ主権制約に対して構造的によりレジliントである。
  • 本研究では、特に地域的障害が偏りのあるデータ損失を引き起こす場合に、マルチリージョン展開におけるフェイルセーフ性が重要な未解決課題であると特定した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。