Skip to main content
QUICK REVIEW

[논문 리뷰] Privacy-preserving Transfer Learning for Knowledge Sharing.

Xiawei Guo, Quanming Yao|arXiv (Cornell University)|2018. 11. 23.
Privacy-Preserving Technologies in Data참고 문헌 23인용 수 15
한 줄 요약

이 논문은 샘플 기반 또는 특성 기반 데이터 분할을 사용하는 앙상블 스태킹을 통해 비차별적 개인정보 보호 기반 전이 학습 프레임워크를 제안한다. 이는 비차별적 개인정보 보호 환경에서 로지스틱 회귀 성능을 향상시킨다. 특성 기반 분할이 동일한 개인정보 보호 예산 하에서 더 적은 샘플로 더 우수한 경험적 성능을 달성함을 보여주며, 조직 간 응용을 위한 가설 전이 학습을 통합하여 MNIST, NEWS20 및 RUIJIN 데이터셋에서의 실생활 당뇨병 예측 작업에서 강력한 성능을 보였다.

ABSTRACT

To meet the standard of differential privacy, noise is usually added into the original data, which inevitably deteriorates the predicting performance of subsequent learning algorithms. In this paper, motivated by the success of improving predicting performance by ensemble learning, we propose to enhance privacy-preserving logistic regression by stacking. We show that this can be done either by sample-based or feature-based partitioning. However, we prove that when privacy-budgets are the same, feature-based partitioning requires fewer samples than sample-based one, and thus likely has better empirical performance. As transfer learning is difficult to be integrated with a differential privacy guarantee, we further combine the proposed method with hypothesis transfer learning to address the problem of learning across different organizations. Finally, we not only demonstrate the effectiveness of our method on two benchmark data sets, i.e., MNIST and NEWS20, but also apply it into a real application of cross-organizational diabetes prediction from RUIJIN data set, where privacy is of significant concern.

연구 동기 및 목표

  • 노이즈 주입으로 인한 비차별적 개인정보 보호 학습에서의 성능 저하 문제를 해결하기 위해.
  • 앙상블 스태킹 기법을 활용하여 개인정보 보호 기반 기계 학습의 성능을 향상시키기 위해.
  • 차별적 개인정보 보호를 유지하면서도 조직 간 효과적인 지식 공유를 가능하게 하기 위해.
  • 동일한 개인정보 보호 예산 하에서 샘플 기반 분할과 특성 기반 분할의 효율성을 비교하기 위해.
  • 조직 간 모델 훈련을 위한 비차별적 개인정보 보호와 가설 전이 학습을 통합하기 위해.

제안 방법

  • 이 방법은 분할된 데이터에서 훈련된 다수의 비차별적 모델을 앙상블 스태킹을 통해 조합하여 일반화 성능을 향상시킨다.
  • 데이터는 샘플 기반(클라이언트 간) 또는 특성 기반(특성 간)으로 분할되며, 특성 기반 분할이 더 샘플 효율적임이 입증되었다.
  • 학습 중 모델 기울기 또는 파라미터에 캘리브레이션된 노이즈를 추가하여 비차별적 개인정보 보호를 구현한다.
  • 가설 전이 학습을 통합하여 조직 간에 학습된 표현을 공유할 수 있도록 한다.
  • 스태킹 메타-러닝 기반으로 기본 모델의 예측을 조합하여 더 정확한 최종 출력을 도출한다.
  • 프레임워크는 MNIST, NEWS20 및 RUIJIN 데이터셋에서의 실생활 당뇨병 예측 작업에서 평가되었다.

실험 결과

연구 질문

  • RQ1동일한 개인정보 보호 예산 하에서 특성 기반 분할이 샘플 기반 분할에 비해 샘플 효율성 측면에서 어떻게 비교되는가?
  • RQ2스태킹 기법이 비차별적 개인정보 보호 로지스틱 회귀 모델의 예측 성능을 향상시킬 수 있는가?
  • RQ3비차별적 개인정보 보호와 가설 전이 학습을 통합하는 것이 조직 간 설정에서 얼마나 효과적인가?
  • RQ4제안된 방법의 경험적 성능은 개인정보 제약 하에서 벤치마크 및 실생활 데이터셋에서 어떻게 나타나는가?
  • RQ5의료와 같은 민감한 응용 분야에서 강력한 개인정보 보호 보장을 확보하면서도 높은 유용성을 유지할 수 있는가?

주요 결과

  • 동일한 개인정보 보호 예산 하에서 특성 기반 분할이 샘플 기반 분할보다 더 높은 샘플 효율성 덕분에 더 뛰어난 경험적 성능을 달성한다.
  • 제안된 스태킹 방법은 기준 비차별적 모델 대비 비차별적 로지스틱 회귀 모델의 예측 정확도를 크게 향상시킨다.
  • 제안된 방법은 비차별적 개인정보 보호 하에서 MNIST 및 NEWS20 벤치마크 데이터셋 모두에서 강력한 성능을 보였다.
  • 실생활 RUIJIN 당뇨병 예측 작업에서, 이 프레임워크는 개인정보 보호를 유지하면서도 조직 간 학습을 성공적으로 가능하게 하였다.
  • 가설 전이 학습의 통합은 개인정보 제약이 있는 피어 투 피어 또는 분산 환경에서 모델의 유용성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.