QUICK REVIEW

[論文レビュー] Secure Federated Submodel Learning

Chaoyue Niu, Fan Wu|arXiv (Cornell University)|Nov 6, 2019

Privacy-Preserving Technologies in Data参考文献 91被引用数 28

ひとこと要約

本稿では、リソース制約のあるクライアントが関連するモデル部分構造のみを学習し、プライバシーを保持しつつ、安全なフェデレーテッド部分モデル学習フレームワークを提案する。ランダム化応答、セキュアアグリゲーション、ブルームフィルタ、およびプライベートセットユニオンプロトコルを統合することで、部分モデルの位置情報漏洩に対するローカル微分プライバシーを確保し、実世界のTaobaoデータを用いた電子商取引推薦ワークロードにおいて高い精度とスケーラビリティを達成する。

ABSTRACT

Federated learning was proposed with an intriguing vision of achieving collaborative machine learning among numerous clients without uploading their private data to a cloud server. However, the conventional framework requires each client to leverage the full model for learning, which can be prohibitively inefficient for resource-constrained clients and large-scale deep learning tasks. We thus propose a new framework, called federated submodel learning, where clients download only the needed parts of the full model, namely submodels, and then upload the submodel updates. Nevertheless, the "position" of a client's truly required submodel corresponds to her private data, and its disclosure to the cloud server during interactions inevitably breaks the tenet of federated learning. To integrate efficiency and privacy, we have designed a secure federated submodel learning scheme coupled with a private set union protocol as a cornerstone. Our secure scheme features the properties of randomized response, secure aggregation, and Bloom filter, and endows each client with a customized plausible deniability, in terms of local differential privacy, against the position of her desired submodel, thus protecting her private data. We further instantiated our scheme with the e-commerce recommendation scenario in Alibaba, implemented a prototype system, and extensively evaluated its performance over 30-day Taobao user data. The analysis and evaluation results demonstrate the feasibility and scalability of our scheme from model accuracy and convergency, practical communication, computation, and storage overheads, as well as manifest its remarkable advantages over the conventional federated learning framework.

研究の動機と目的

リソース制約のあるクライアントに対する従来のフェデレーテッドラーニングの非効率性を解消するため、全モデル更新ではなく部分モデルの学習を可能にする。
クライアントが必要な部分モデルの真のインデックス集合をクラウドサーバーが学習しないようにすることで、プライバシーを保護する。これは、プライベートデータを露呈する要因となる。
部分モデルの位置にローカル微分プライバシーを保証しつつ、モデルの収束性と精度を維持するセキュアプロトコルを設計する。
30日間のTaobaoデータを用いた実世界の電子商取引推薦設定において、このスキームの実現可能性とパフォーマンスを評価する。
複数の通信ラウンドに繰り返し参加することに起因するプライバシー漏洩を、期間ベース、グループベース、匿名化、または摂動付きインデックス集合戦略によって軽減する。

提案手法

クライアントがデータに関連する部分モデルのみをダウンロードし、更新も部分モデルに限定することで、通信および計算負荷を削減するフェデレーテッド部分モデル学習を提案する。
プライベートセットユニオンプロトコルを用いて、サーバーが個々のセットを学習せずにクライアントの部分モデルインデックスのユニオンを学習できるようにする。これによりプライバシーが保持される。
クライアントの真の部分モデルインデックスを摂動させるランダム化応答メカニズムを導入し、疑惑の否定とローカル微分プライバシーを提供する。
ブルームフィルタを用いて、プライバシーを保ちつつ部分モデルインデックスを効率的に符号化・比較し、通信コストを削減する。
セキュアアグリゲーションを適用し、複数クライアントからの部分モデル更新を個々の貢献を明らかにせずに統合する。
クライアントが1期間に1回のラウンドにのみ参加する期間ベースの通信モデルを導入し、繰り返しのインデックス集合ユニオンの露出を制限する。

実験結果

リサーチクエスチョン

RQ1リソース制約のあるクライアントに対して、モデル精度を損なわずにフェデレーテッドラーニングをどのように効率化できるか？
RQ2クライアントが複数回にわたりフェデレーテッド部分モデル学習に参加する場合に生じるプライバシーリスクは何か？そして、それらはどのように軽減できるか？
RQ3クライアントが実際に必要としている真の部分モデルインデックスを隠すセキュアプロトコルを設計することは可能か？これによりプライベートデータが保護されるか？
RQ4大規模推薦システムにおける収束性、通信コスト、ストレージオーバーヘッドに与える部分モデル選択の影響は何か？
RQ5従来のフェデレーテッドラーニングと比較して、実世界の産業的環境における本スキームの有効性はいかがなものか？

主な発見

提案された安全なフェデレーテッド部分モデル学習スキームは、実世界のTaobao電子商取引データにおいて、従来のフェデレーテッドラーニングと同等のモデル精度と収束性を達成する。
全モデル学習と比較して、通信、計算、ストレージのオーバーヘッドが顕著に削減され、大規模展開に実用的である。
ランダム化応答、セキュアアグリゲーション、ブルームフィルタの統合により、部分モデルの位置に関するプライバシーが効果的に保護され、ローカル微分プライバシーが達成される。
期間ベースの参加、グループベースの協働、匿名化、またはインデックス集合の摂動を用いることで、繰り返し参加に起因するプライバシー漏洩が緩和される。
30日間のTaobaoデータを用いた評価により、産業的推薦システムにおけるアプローチのスケーラビリティと実現可能性が確認された。
プライベートセットユニオンプロトコルにより、個々のクライントデータを露呈せずに部分モデルインデックスのセキュアアグリゲーションが可能となり、フレームワークの根幹をなす要因となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。