[論文レビュー] Encrypted statistical machine learning: new privacy preserving methods
本論文は、完全準同型暗号(FHE)を用いて、復号なしで暗号化されたデータ上で安全に学習および予測を実行できる、2つの新しいプライバシー保護型機械学習手法—暗号化された極端にランダムなフォレストと暗号化されたナイーブベイズ—を提案する。著者らは、極端にランダムなフォレストにおける投票を近似する暗号的確率的分数推定器と、ロジスティック回帰を用いて意思決定境界を定義する半パラメトリックモデルを導入し、UCIデータセット上で、非暗号化モデルと同等の性能を示し、正確な同一性を確認した。100本の木のフォレストは、1,152コアで1時間36分間、23.86ドルのコストで構築された。
We present two new statistical machine learning methods designed to learn on fully homomorphic encrypted (FHE) data. The introduction of FHE schemes following Gentry (2009) opens up the prospect of privacy preserving statistical machine learning analysis and modelling of encrypted data without compromising security constraints. We propose tailored algorithms for applying extremely random forests, involving a new cryptographic stochastic fraction estimator, and naïve Bayes, involving a semi-parametric model for the class decision boundary, and show how they can be used to learn and predict from encrypted data. We demonstrate that these techniques perform competitively on a variety of classification data sets and provide detailed information about the computational practicalities of these and other FHE methods.
研究の動機と目的
- マルチパーティ計算を用いずに、統計的モデルのエンドツーエンド暗号化された機械学習を可能にすること。
- 実世界の機械学習応用における完全準同型暗号(FHE)の実用的限界を克服すること。
- モデルの精度を保持しつつ、完全に暗号化されたデータ上で動作するように特化したアルゴリズムを開発すること。
- クラウドインfraストラクチャを用いて大規模データ上でFHEベースの学習の計算可能性とパフォーマンスを実証すること。
- 再現可能でアクセス可能なプライバシー保護型機械学習を提供するオープンソースのR実装を提供すること。
提案手法
- FHE下で極端にランダムなフォレストにおける投票を近似するために、暗号的確率的分数推定器を提案し、安全な木の構築を可能にする。
- クラスの意思決定境界をホモモルフィック演算と互換性を持つように定義する半パラメトリックなナイーブベイズモデルを構築する。
- ホモモルフィック暗号のプリミティブを用いて、元のランダムフォレストおよびナイーブベイズアルゴリズムを完全に暗号化されたデータ上で動作可能に変更する。
- すべての操作—学習、予測、モデルの結合—を復号なしで実行するためにホモモルフィック暗号を活用する。
- Amazon EC2のスポットインスタンスを用いて、1,152コアにわたる分散型で、並列性の高いアーキテクチャを構築し、スケーリングを実現する。
- ノード間の通信を一切行わずに、地理的に分散されたノード上で暗号化計算を調整するため、Amazon SQSおよびS3を用いたジョブディスpatchシステムを設計する。
実験結果
リサーチクエスチョン
- RQ1完全準同型暗号(FHE)を用いて、極端にランダムなフォレストを完全に暗号化されたデータ上で動作可能にできるか?
- RQ2ホモモルフィック演算が可能な意思決定境界の計算をサポートする半パラメトリックなナイーブベイズモデルを構築できるか?
- RQ3標準ベンチマークデータセット上で、暗号化された機械学習モデルのパフォーマンスは、非暗号化モデルと比べてどの程度か?
- RQ4クラウドインfraストラクチャ上でのFHEベースの機械学習の実用的計算コストとスケーラビリティ特性は何か?
- RQ5復号なしで、暗号化されたモデルをホモモルフィックに結合して、1つの統合モデルを生成できるか?
主な発見
- 暗号化された極端にランダムなフォレストおよびナイーブベイズモデルは、複数のUCIデータセットで、非暗号化モデルと同等の分類性能を達成した。
- 暗号化されたモデルの出力は、復号後に非暗号化計算とビット単位で完全に同一であり、ホモモルフィック実装の正しさを確認した。
- 100本の木のフォレストは、2つのクラウドリージョンにまたがる1,152コアで1時間36分間、Amazon EC2スポットインスタンスを用いて23.86ドルのコストで学習された。
- 100本の木からなる最終的な暗号化フォレストは868MBのストレージで済んだが、36個の50本の木からなるフォレストでは15.6GBを要したため、長期的なデータ圧縮が顕著に可能になった。
- モデルの適合および予測を完全に暗号化された形で実行でき、マルチパーティ計算や安全な通信チャネルの必要性がなくなる。
- 現代のCPU上でネイティブにサポートされ、並列処理が可能なホモモルフィック加法および乗法の使用により、スケーリングが効率的に行える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。