Skip to main content
QUICK REVIEW

[論文レビュー] Securing Distributed Machine Learning in High Dimensions

Lili Su, Jiaming Xu|arXiv (Cornell University)|Apr 26, 2018
Privacy-Preserving Technologies in Data被引用数 26
ひとこと要約

本稿では、高次元機械学習に対して、一定割合のByzantineワーカーを耐えうる、頑健で分散型の勾配降下法を提案する。反復フィルタリング勾配集約器を活用し、標本共分散行列の一様集中を確立することで、$d \gg n$ でさえも $O(\log N)$ ラウンドで $O(\sqrt{q/N} + \sqrt{d/N})$ の推定誤差を達成する。この手法は、高次元設定下で悪意あるワーカーの行動に対しても収束を保証する。

ABSTRACT

We consider securing a distributed machine learning system wherein the data is kept confidential by its providers who are recruited as workers to help the learner to train a $d$--dimensional model. In each communication round, up to $q$ out of the $m$ workers suffer Byzantine faults; faulty workers are assumed to have complete knowledge of the system and can collude to behave arbitrarily adversarially against the learner. We assume that each worker keeps a local sample of size $n$. (Thus, the total number of data points is $N=nm$.) Of particular interest is the high-dimensional regime $d \gg n$. We propose a secured variant of the classical gradient descent method which can tolerate up to a constant fraction of Byzantine workers. We show that the estimation error of the iterates converges to an estimation error $O(\sqrt{q/N} + \sqrt{d/N})$ in $O(\log N)$ rounds. The core of our method is a robust gradient aggregator based on the iterative filtering algorithm proposed by Steinhardt et al. \cite{Steinhardt18} for robust mean estimation. We establish a uniform concentration of the sample covariance matrix of gradients, and show that the aggregated gradient, as a function of model parameter, converges uniformly to the true gradient function. As a by-product, we develop a new concentration inequality for sample covariance matrices of sub-exponential distributions, which might be of independent interest.

研究の動機と目的

  • データがワーカー間で分散されている高次元設定における分散機械学習のセキュリティ課題に対処すること。
  • 最大 $q$ 名のワーカーが悪意ある行動をとり、共謀する状況下でも耐障害性を有する勾配集約メカニズムを設計すること。
  • 従来の手法が失敗する高次元領域 $d \gg n$ においても、Byzantineワーカーが存在する状況でモデルパラメータの収束を保証すること。
  • 分散学習における悪意ある状況下で推定誤差と収束速度に関する理論的保証を確立すること。

提案手法

  • 本手法は、Steinhardtら(2018)の頑健な平均推定のための反復フィルタリングアルゴリズムを基盤とする頑健な勾配集約器を採用する。
  • 標本共分散行列の一様集中を活用することで、モデルパラメータ全域にわたって集約勾配が真の勾配関数を一様に近似することを保証する。
  • 各ワーカーの局所勾配をサブ指数確率的ベクトルとしてモデル化し、このような分布の標本共分散行列に対する新しい集中不等式を導出する。
  • アルゴリズムはラウンドを繰り返し、各ワーカーが自身の $n$ 組のデータセット上で局所勾配を計算し、学習者に送信する。学習者はフィルタリング手法を用いてそれらを集約する。
  • フィルタリングプロセスは反復的に外れ値を除去し、勾配の頑健な平均推定値を計算することで、Byzantineワーカーの影響を最小限に抑える。
  • 本手法は $O(\log N)$ ラウンドで収束を達成するように設計されており、集約勾配が真の勾配に一様に収束することと関連づけられる。

実験結果

リサーチクエスチョン

  • RQ1高次元設定下で、一定割合のワーカーがByzantineであり、共謀している場合でも、分散機械学習システムが正確性と安全性を維持できるか?
  • RQ2高次元設定 $d \gg n$ において、悪意ある行動に耐えうる勾配集約はどのように実現できるか?
  • RQ3高次元分散学習におけるByzantine故障下で、推定誤差と収束速度に関する理論的保証はどのように確立できるか?
  • RQ4サブ指数分布の標本共分散行列に対する新しい集中不等式を導出し、集約勾配の一様収束を証明するためにその不等式を用いることは可能か?

主な発見

  • モデル反復の推定誤差は、$d \gg n$ であっても $O(\log N)$ ラウンドで $O(\sqrt{q/N} + \sqrt{d/N})$ に収束する。
  • 提案された頑健な勾配集約器により、すべてのモデルパラメータにわたって集約勾配が真の勾配関数に一様に収束することが保証される。
  • サブ指数分布の標本共分散行列に対する新しい集中不等式が導出され、主な収束結果の証明に不可欠な役割を果たす。
  • 本手法は、ワーカーの一部がシステムの詳細を完全に把握し、共謀している場合でも、一定割合のByzantineワーカーを耐えうる。
  • 理論的解析により、悪意ある干渉があっても勾配集約プロセスが安定的かつ正確に保たれることを示した。
  • 提案された頑健な集約フレームワーク下で、$O(\log N)$ ラウンドの収束速度が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。