Skip to main content
QUICK REVIEW

[論文レビュー] Additively Homomorphical Encryption based Deep Neural Network for Asymmetrically Collaborative Machine Learning

Yifei Zhang, Hao Zhu|arXiv (Cornell University)|Jul 14, 2020
Privacy-Preserving Technologies in Data参考文献 20被引用数 29
ひとこと要約

本論文は、一方の参加者がデータを保有し、もう一方がラベルを保有する非対称な共同機械学習のためのプライバシー保護型ディープラーニングフレームワークを提案する。ネットワークを暗号化されていない特徴抽出器と暗号化された分類器に分割し、同型暗号に基づくバックプロパゲーションプロトコルを設計することで、最新のシステムと比較して100倍以上の高速化を達成しながら精度に損失が生じず、金融および保険分野における効率的でプライベートなモデル学習を可能にする。

ABSTRACT

The financial sector presents many opportunities to apply various machine learning techniques. Centralized machine learning creates a constraint which limits further applications in finance sectors. Data privacy is a fundamental challenge for a variety of finance and insurance applications that account on learning a model across different sections. In this paper, we define a new practical scheme of collaborative machine learning that one party owns data, but another party owns labels only, and term this extbf{Asymmetrically Collaborative Machine Learning}. For this scheme, we propose a novel privacy-preserving architecture where two parties can collaboratively train a deep learning model efficiently while preserving the privacy of each party's data. More specifically, we decompose the forward propagation and backpropagation of the neural network into four different steps and propose a novel protocol to handle information leakage in these steps. Our extensive experiments on different datasets demonstrate not only stable training without accuracy loss, but also more than 100 times speedup compared with the state-of-the-art system.

研究の動機と目的

  • データとラベルが別々の参加者によって保有される状況で、深層ニューラルネットワークを共同で学習する課題に取り組むこと。特に、プライバシーが重要な金融・保険分野を想定する。
  • 直接暗号化されたデータ上で計算を行うのを回避することで、計算オーバーヘッドを低減する効率的でプライバシー保護型の学習プロトコルを設計すること。
  • 縦方向に分割された、非対称な共同学習環境におけるバックプロパゲーション中の情報漏洩を緩和すること。
  • MNIST や CIFAR-10 といった複雑なデータセットに対しても、データおよびラベルのプライバシーを保持したまま、高性能な学習を可能にすること。
  • 入力次元やニューラルネットワークアーキテクチャの変化に対して、本手法の頑健性を示すこと。

提案手法

  • 深層ニューラルネットワークを、局所的に暗号化されていない特徴抽出器と暗号化された分類器の2つのコンponentに分解することで、同型暗号のオーバーヘッドを最小限に抑える。
  • 順伝播と逆伝播を4つの明確なステップに分割し、特に勾配計算のような機密性の高い操作を分離・保護する。
  • 特徴抽出器と分類器間での勾配伝達中に情報漏洩を防ぐために、同型暗号に基づく新しいバックプロパゲーションプロトコルを設計する。
  • 加法的同型暗号(AHE)を用いて、暗号化された特徴上で計算を実行することで、受動的参加者が元のデータを学習できないように保証する。
  • 特徴抽出フェーズで入力次元を低減することで、同型演算の回数を著しく削減し、効率性を向上させる。
  • 完全同型暗号(FHE)よりも高速な部分的同型暗号(PHE)を用いて実装することで、実用的な推論時間を達成する。

実験結果

リサーチクエスチョン

  • RQ1データとラベルが別々の参加者によって保有される状況で、生のデータやラベルを露呈させずに深層ニューラルネットワークを共同で学習できるか?
  • RQ2縦方向に分割された、非対称な共同学習環境において、バックプロパゲーション中の情報漏洩をどのように防止できるか?
  • RQ3暗号化されたディープラーニングの計算コストを低減することで、MNIST や CIFAR-10 といった実世界のデータセットに対しても実用的な学習が可能になるか?
  • RQ4既存の同型暗号ベースのモデルと比較して、本手法の速度および精度はどのように評価できるか?
  • RQ5入力次元やニューラルネットワークアーキテクチャの変化に対して、本手法は頑健であるか?

主な発見

  • 本手法は、最新のGELU-Netと比較して100倍以上の高速化を達成し、LeNet-5を用いたMNISTでは推論時間がわずか0.0583秒で実現した。
  • MNISTでは99%のテスト精度を維持しており、GELU-Netおよび多項ロジスティック回帰と同等またはそれ以上の性能を示した。
  • 出力次元が同一の場合、異なるアーキテクチャ(例:LeNet-5 と Conv-1)に対しても計算時間はほぼ一定であり、分類器が主な計算ボトルネックであることが示された。
  • 入力次元に依存しない特性を示しており、MNIST(28×28)とCIFAR-10(32×32×3)の推論時間はほぼ同一であり、生のデータ上で直接処理を行うモデルとは対照的であった。
  • 多項ロジスティック回帰よりも速度および精度で優れており、暗号化された表現上で深層特徴学習が有効であることを示した。
  • 計算コストが暗号化された分類器に支配されていることから、本システムは非常に効率的かつスケーラブルであり、より深いネットワークや複雑なデータに対しても適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。