QUICK REVIEW

[論文レビュー] CodedPrivateML: A Fast and Privacy-Preserving Framework for Distributed Machine Learning

Jinhyun So, Başak Güler|arXiv (Cornell University)|Feb 2, 2019

Privacy-Preserving Technologies in Data被引用数 44

ひとこと要約

CodedPrivateML は、分散学習におけるトレーニングデータの情報理論的プライバシーを提供しつつ、効率的な並列化を可能にします。収束とコラグリングされたワーカーに対するプライバシーを達成するために、量子化と多項式近似を用いたラグランジュ符号化を使用します。

ABSTRACT

How to train a machine learning model while keeping the data private and secure? We present CodedPrivateML, a fast and scalable approach to this critical problem. CodedPrivateML keeps both the data and the model information-theoretically private, while allowing efficient parallelization of training across distributed workers. We characterize CodedPrivateML's privacy threshold and prove its convergence for logistic (and linear) regression. Furthermore, via extensive experiments on Amazon EC2, we demonstrate that CodedPrivateML provides significant speedup over cryptographic approaches based on multi-party computing (MPC).

研究の動機と目的

情報理論的保証を用いて、最大 T のコラリングワーカーに対してトレーニングデータのプライバシーを保護する。
N 個のワーカーにわたる勾配計算を効果的に並列化して、高速な分散訓練を実現する。
通信と計算オーバーヘッドを削減するため、Lagrange coding に基づくエンコーディング/量子化スキームを開発する。
多項式近似を介して非多項式のシグモイド演算があっても、ロジスティック（および線形）回帰の収束を保証する。
プライバシーレベル（T）と並列化の利得との理論的トレードオフを提供する。

提案手法

確率的量子化と二段階の秘密分割によって、データセットと重みを有限体へ量子化する。
量子化されたデータと重みをラグランジュ符号化でエンコードして、T コララリングワーカーに対するプライバシーを実現し、作業負荷を分散する。
シグモイドを次数 r の多項式で近似して、多項式ベースの計算に適合させる。
r 個の独立した量子化を用いた、偏りのない不偏推定量 ar{s} を用いて勾配を計算し、収束を保証する。
マスター側で集約勾配を多項式補間を用いてデコードし、重み更新のため実数ドメインに戻す。

実験結果

リサーチクエスチョン

RQ1コラリングワーカーに対する情報理論的プライバシーを備えた分散設定で、プライベートデータを用いてMLモデルをどのように訓練できるか？
RQ2量子化と多項式近似の下で、ロジスティック回帰および線形回帰の最適解に収束するか？
RQ3CodedPrivateML におけるプライバシー（T）と並列化（N、K）とのトレードオフは何か？
RQ4速度と精度の点で、CodedPrivateML はMPCベースのプライバシー保護アプローチとどう比較されるか？
RQ5ストラグラーワーカーが存在する場合の、勾配デコード成功に必要な条件（例：回復閾値）は何か？

主な発見

提案された量子化と多項式近似スキームの下で、CodedPrivateML はロジスティック回帰の最適損失への収束を保証します。
最大 T のコラリングワーカーに対して情報理論的プライバシーを提供しつつ、N ワーカーにわたる並列化を可能にします。
この手法は、Amazon EC2 上で最大 50 workers の実験において MPC ベースラインより著しいスピードアップを達成します。
CIFAR-10 および GISETTE の実験は、MPC ベースのアプローチよりも大幅に速いトレーニング時間で、同程度の精度を示します。
より多くのワーカーにより、プライバシーレベル（T）と並列化の利点とのトレードオフが生じることが特定され、より多くのワーカーはプライバシーを高めるか、各ワーカーの計算を減らすことができます。
この手法はデータと重みをエンコードして、コーディッド計算がアンクーデッド計算と同じ構造を反映するようにし、勾配評価の正確性を保持します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。