Skip to main content
QUICK REVIEW

[논문 리뷰] Privacy-Preserving Distributed Deep Learning for Clinical Data

Brett K. Beaulieu‐Jones, William Yuan|arXiv (Cornell University)|2018. 12. 04.
Privacy-Preserving Technologies in Data참고 문헌 8인용 수 28
한 줄 요약

이 논문은 환자 원자료를 공유하지 않고도 다수의 의료기관 간에 신경망을 공동으로 훈련시킬 수 있는 차별적 비밀보장 분산 딥러닝 프레임워크를 제안한다. 사이클릭 웨이트 전달과 레니 지니 차별적 비밀보장, 그리고 비밀보장 회계를 통합함으로써, 높은 모델 성능을 유지하면서도 증명 가능한 비밀보장 보장을 달성한다. eICU 및 TCGA 데이터셋에서의 실험을 통해 분산 비밀보장 환경에서도 AUROC 점수가 0.79 초과를 기록하였다.

ABSTRACT

Deep learning with medical data often requires larger samples sizes than are available at single providers. While data sharing among institutions is desirable to train more accurate and sophisticated models, it can lead to severe privacy concerns due the sensitive nature of the data. This problem has motivated a number of studies on distributed training of neural networks that do not require direct sharing of the training data. However, simple distributed training does not offer provable privacy guarantees to satisfy technical safe standards and may reveal information about the underlying patients. We present a method to train neural networks for clinical data in a distributed fashion under differential privacy. We demonstrate these methods on two datasets that include information from multiple independent sites, the eICU collaborative Research Database and The Cancer Genome Atlas.

연구 동기 및 목표

  • 데이터가 중앙집중적으로 공유될 수 없을 때 개인정보 우려로 인해 임상 데이터에서 정확한 딥러닝 모델을 훈련시키는 데 도전하는 것.
  • 기관이 원자료를 유지하는 분산 훈련 환경에서 증명 가능한 비밀보장 보장을 제공하는 것.
  • 통신 오버헤드를 줄이고 분산 학습에서 중앙 조율자 필요성을 제거하는 것.
  • eICU 및 TCGA와 같은 이질적이고 다중 기관 임상 데이터셋에서 개인정보 보호형 모델 훈련을 가능하게 하는 것.
  • 레니 지니 차별적 비밀보장과 비밀보장 회계를 활용해 비밀보장 손실을 정량화하고 최소화하는 것.

제안 방법

  • 이 방법은 중앙 서버가 없이도 분산 훈련을 가능하게 하기 위해 사이클릭 웨이트 전달을 활용하며, 기관 간에 주기적으로 모델 가중치를 교환한다.
  • 훈련 중 기울기에 캘리브레이션된 노이즈를 추가함으로써 차별적 비밀보장을 구현하며, 노이즈 스케일 σ를 조정하여 원하는 비밀보장 예산(ε, δ)을 달성한다.
  • 레니 지니 차별적 비밀보장 기반의 비밀보장 회계를 사용하여 다중 훈련 반복 동안 누적된 비밀보장 손실을 계산하며, 표준 복합 정리보다 더 날카로운 경계를 제공한다.
  • 이 프레임워크는 중앙집중식 및 완전히 분산된 훈련 모드를 모두 지원하며, 각 기관의 비밀보장 보장을 개별적으로 평가할 수 있도록 비밀보장 보장을 기관 단위로 계산한다.
  • 모델 성능은 사망 예측(eICU) 및 암 아형 분류(TCGA) 작업에서 AUROC를 사용해 평가한다.
  • 데이터는 최소-최대 정규화 및 특성 선택(예: TCGA에서 상위 500개 변동 유전자)을 통해 사전 처리하여 유효성과 차원 축소를 향상시킨다.

실험 결과

연구 질문

  • RQ1중앙 데이터 레포지터리가 필요 없이도 증명 가능한 비밀보장 보장을 제공하는 분산 딥러닝 프레임워크를 설계할 수 있는가?
  • RQ2차별적 비밀보장과 사이클릭 웨이트 전달을 통합했을 때, 이질적인 다중 기관 임상 데이터 환경에서 모델 성능에 어떤 영향을 미치는가?
  • RQ3다양한 데이터 크기를 가진 기관 간의 분산 훈련에서 비밀보장 예산(ε)과 모델 정확도 사이의 상호 교환 관계는 어떠한가?
  • RQ4데이터가 소규모이고 비동일한 기관들 간에 분할되어 있더라도, 이 방법이 높은 성능을 유지할 수 있는가?
  • RQ5레니 지니 차별적 비밀보장 기반 비밀보장 회계는 이 설정에서 표준 복합 정리에 비해 비밀보장 손실 추정을 어떻게 향상시키는가?

주요 결과

  • eICU 사망 예측 작업에서, 5개 기관을 대상으로 한 분산 비밀보장 모델은 AUROC 0.792를 기록하였으며, 비비밀보장 분산 기준선(0.801)에 비해 약간 낮은 성능을 보였다.
  • TCGA BRCA 분류 작업에서, 3개의 사이트를 대상으로 한 분산 비밀보장 모델은 AUROC 0.744를 달성하였으며, 비비밀보장 분산 환경의 0.761에 비해 다소 낮았다.
  • 모든 기관에서의 최대 비밀보장 손실(ε)은 분산 eICU 환경에서 3.84였으며, δ는 10−5로 고정되어 있어 강력한 비밀보장 보호를 나타낸다.
  • TCGA 환경에서는 최소 규모의 기관(사이트 #3)에서 분산 상황에서 최대 ε가 6.11로 나타났으며, 이는 비밀보장 손실이 데이터 크기와 비례함을 보여준다.
  • 중앙 집중식 비밀보장 학습 프로토콜에 비해 빈번한 기울기 교환을 중앙 서버와 수행하지 않기 때문에, 통신 오버헤드가 크게 감소하였다.
  • 엄격한 비밀보장 조건 하에서도 이 프레임워크는 모델 유효성을 성공적으로 유지하였으며, 차별적 비밀보장이 분산 임상 머신러닝에 효과적으로 적용될 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.