QUICK REVIEW

[論文レビュー] SecureBoost: A Lossless Federated Learning Framework

Kewei Cheng, Tao Fan|arXiv (Cornell University)|Jan 25, 2019

Privacy-Preserving Technologies in Data参考文献 37被引用数 178

ひとこと要約

SecureBoost は、連合学習における垂直に分割されたデータに対する損失のない、プライバシーを保護する勾配ブースティングフレームワークを提示し、 private data を漏らすことなく中央レベルの精度を達成する。

ABSTRACT

The protection of user privacy is an important concern in machine learning, as evidenced by the rolling out of the General Data Protection Regulation (GDPR) in the European Union (EU) in May 2018. The GDPR is designed to give users more control over their personal data, which motivates us to explore machine learning frameworks for data sharing that do not violate user privacy. To meet this goal, in this paper, we propose a novel lossless privacy-preserving tree-boosting system known as SecureBoost in the setting of federated learning. SecureBoost first conducts entity alignment under a privacy-preserving protocol and then constructs boosting trees across multiple parties with a carefully designed encryption strategy. This federated learning system allows the learning process to be jointly conducted over multiple parties with common user samples but different feature sets, which corresponds to a vertically partitioned data set. An advantage of SecureBoost is that it provides the same level of accuracy as the non-privacy-preserving approach while at the same time, reveals no information of each private data provider. We show that the SecureBoost framework is as accurate as other non-federated gradient tree-boosting algorithms that require centralized data and thus it is highly scalable and practical for industrial applications such as credit risk analysis. To this end, we discuss information leakage during the protocol execution and propose ways to provably reduce it.

研究の動機と目的

連邦設定における垂直に分割されたデータ上のプライバシー保護機械学習を定義する。
共通サンプルを持つが異なる特徴量を持つ複数のパーティで動作する損失ゼロの勾配ブースティングフレームワークを開発する。
プライベートデータを露呈せずに木を訓練するための安全なデータ整合と暗号化された勾配集約を提案する。
情報漏えいを分析し、精度を保持しつつ証明的に低減する方法を議論する。

提案手法

ラベルを保持するアクティブパーティと特徴を保持するパッシブパーティを含む垂直型フェデレーテッドラーニング問題を形式的に定義する。
プライバシーを保護するプロトコルを用いて、パーティ間でデータサンプルを整列させる。
勾配統計（g_i, h_i）を Paillier 暗号化で暗号化し、それらを集約して最適な分割を見つけることで、共有勾配ブースティングモデルを訓練する。
グローバルな分割を決定するためにアクティブパーティが集計統計を復号する一方、パッシブパーティは暗号化データ上で局所計算を行う。
安全な予測（推論）を可能にするため、分割決定情報とルックアップテーブルをパッシブおよびアクティブパーティに保存する。
同じ初期化とハイパーパラメータの下で、フェデレーテッドモデルの損失が中央集権的で非プライバシー保護モデルと同じであることを示して損失なしを証明する。

実験結果

リサーチクエスチョン

RQ1垂直に分割されたデータを複数のパーティにまたがってプライベートに整列させるにはどうすれば良いか。
RQ2暗号化された勾配統計を用いて、プライバシーを保護しつつ損失なしでパーティ間で勾配ブースティングモデルを訓練できるか。
RQ3訓練および推論時の侵入/漏えいプロファイルは何で、精度を犠牲にせずに低減するにはどうすればよいか。
RQ4SecureBoost は中央集権的で非フェデレーテッドの勾配ブースティング法と同等の精度を達成するか。

主な発見

このフレームワークは損失なし：SecureBoost は同一の初期化とハイパーパラメータの下で中央集権的で非プライバシー保護モデルと同じ精度に一致する。
セキュリティ分析は潜在的な漏えいを示し、アクティブパーティがインスタンス空間と分割候補についてより多くを学習できることを示す。 leakageを低減した変種（RL-SecureBoost）は漏えいを緩和する。
2つのクレジットデータセット（Credit 1 および Credit 2）の実験は、非フェデレーテッド手法と同等の性能を示し、RL-SecureBoost は漏えいを減らしつつ精度を保持する。
スケーラビリティ分析は、GBDT および XGBoost に類似した収束曲線を示し、実行時間は木の深さとデータサイズにほぼ線形に比例する。
このフレームワークは信用リスク分析などの産業タスクに実用的な適用性があり、連合学習のための FATE プロジェクトに実装されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。