QUICK REVIEW

[論文レビュー] Privacy-preserving Transfer Learning for Knowledge Sharing.

Xiawei Guo, Quanming Yao|arXiv (Cornell University)|Nov 23, 2018

Privacy-Preserving Technologies in Data参考文献 23被引用数 15

ひとこと要約

本稿では、サンプルベースまたは特徴ベースのデータ分割を用いたアンサンブルスタッキングを組み合わせることで、微分プライバシー下でもロジスティック回帰の性能を向上させるプライバシー保護型転移学習フレームワークを提案する。実験では、同じプライバシー予算のもとで特徴ベースの分割がより少ないサンプルで優れた実効的性能を達成することを示し、組織間応用を想定した仮説転移学習を統合することで、MNIST、NEWS20、およびRUIJINデータセットからの実世界の糖尿病予測タスクで優れた結果を得た。

ABSTRACT

To meet the standard of differential privacy, noise is usually added into the original data, which inevitably deteriorates the predicting performance of subsequent learning algorithms. In this paper, motivated by the success of improving predicting performance by ensemble learning, we propose to enhance privacy-preserving logistic regression by stacking. We show that this can be done either by sample-based or feature-based partitioning. However, we prove that when privacy-budgets are the same, feature-based partitioning requires fewer samples than sample-based one, and thus likely has better empirical performance. As transfer learning is difficult to be integrated with a differential privacy guarantee, we further combine the proposed method with hypothesis transfer learning to address the problem of learning across different organizations. Finally, we not only demonstrate the effectiveness of our method on two benchmark data sets, i.e., MNIST and NEWS20, but also apply it into a real application of cross-organizational diabetes prediction from RUIJIN data set, where privacy is of significant concern.

研究の動機と目的

ノイズ注入によるプライバシー保護学習における性能劣化を是正すること。
アンサンブルスタッキング技術を活用してプライバシー保護型機械学習の性能を向上させること。
微分プライバシーを維持したまま、組織間での効果的な知識共有を可能にすること。
同じプライバシー予算のもとで、サンプルベースと特徴ベースの分割の効率性を比較すること。
微分プライバシーと仮説転移学習を統合し、組織間でのモデル学習を可能にすること。

提案手法

本手法は、分割されたデータ上で学習された複数のプライベートモデルをアンサンブルスタッキングにより統合し、一般化性能を向上させる。
データは、クライアント間でのサンプル分割または特徴間での分割に分けられ、特徴ベースの分割がよりサンプル効率的であることが示された。
トレーニング中にモデル勾配またはパラメータに適切にスケーリングされたノイズを追加することで、微分プライバシーを確保する。
本手法は仮説転移学習を統合し、組織間で学習された表現を共有可能にする。
スタッキングメタラーナーがベースモデルの予測を統合し、最終的なより正確な出力を得る。
本フレームワークは、MNIST、NEWS20、およびRUIJINデータセットからの実世界の糖尿病予測タスクで評価された。

実験結果

リサーチクエスチョン

RQ1同じプライバシー予算のもとで、特徴ベースの分割はサンプルベースの分割に比べてどれほどサンプル効率的か？
RQ2スタッキングは、微分プライバシー下のロジスティック回帰モデルの予測性能を向上させることができるか？
RQ3微分プライバシーと仮説転移学習を統合した手法は、組織間設定においてどれほど効果的か？
RQ4本手法の実効的性能は、ベンチマークおよび実世界のデータセットにおいてプライバシー制約のもとでどのように評価されるか？
RQ5医療分野のような機微な応用において、高い性能を維持しながら強力なプライバシー保証を確保できるか？

主な発見

同じプライバシー予算のもとで、特徴ベースの分割はサンプルベースの分割よりも優れた実効的性能を達成する。これは、より高いサンプル効率性に起因する。
提案手法のスタッキング法は、ベースラインのプライベートモデルに比べ、微分プライバシー下のロジスティック回帰モデルの予測精度を顕著に向上させる。
本手法は、微分プライバシー下でもMNISTおよびNEWS20ベンチマークデータセットで強く優れた性能を示した。
実世界のRUIJIN糖尿病予測タスクにおいて、本フレームワークはプライバシーを保持したまま組織間学習を成功裏に実現した。
仮説転移学習の統合により、プライバシー制約のあるフェデレーテッドまたは分散環境におけるモデルの有用性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。