QUICK REVIEW

[논문 리뷰] Federated Learning for Healthcare Informatics

Jie Xu, Benjamin S. Glicksberg|arXiv (Cornell University)|2019. 11. 13.

Privacy-Preserving Technologies in Data참고 문헌 164인용 수 65

한 줄 요약

이 논문은 의료 정보학에서 연합 학습을 조사하며 통계, 시스템 및 프라이버시 도전과제, 이를 다루는 방법 및 의료 응용을 상세히 설명한다.

ABSTRACT

With the rapid development of computer software and hardware technologies, more and more healthcare data are becoming readily available from clinical institutions, patients, insurance companies and pharmaceutical industries, among others. This access provides an unprecedented opportunity for data science technologies to derive data-driven insights and improve the quality of care delivery. Healthcare data, however, are usually fragmented and private making it difficult to generate robust results across populations. For example, different hospitals own the electronic health records (EHR) of different patient populations and these records are difficult to share across hospitals because of their sensitive nature. This creates a big barrier for developing effective analytical approaches that are generalizable, which need diverse, "big data". Federated learning, a mechanism of training a shared global model with a central server while keeping all the sensitive data in local institutions where the data belong, provides great promise to connect the fragmented healthcare data sources with privacy-preservation. The goal of this survey is to provide a review for federated learning technologies, particularly within the biomedical space. In particular, we summarize the general solutions to the statistical challenges, system challenges and privacy issues in federated learning, and point out the implications and potentials in healthcare.

연구 동기 및 목표

공유 원시 데이터를 공개하지 않고 분절되고 비공개인 의료 데이터로부터 학습할 필요성을 자극한다.
연합학습의 기초와 EHR(전자건강기록) 및 웨어러블과 같은 의료 데이터에 대한 관련성을 요약한다.
통계, 시스템 및 프라이버시 도전과제와 제안된 해결책을 분류하고 검토한다.
의료 특화 응용과 대표적인 방법을 보여준다.
의료 분야에서 FL의 향후 질문과 방향에 대해 논의한다.

제안 방법

연합학습의 형식적 개요와 분산 데이터에서 글로벌 모델을 학습하는 목표를 제공한다.
통계적, 통신적, 프라이버시/보안 측면으로 도전과제를 요약하고 분류한다.
비 IID 데이터 분포에 대한 합의형 vs 다원적 접근을 논의한다.
통신 효율성을 개선하는 방법(모델 압축, 클라이언트 선택, 업데이트 감소, P2P 학습)을 검토한다.
보안 다당계산 및 차등 프라이버시를 포함한 프라이버시 기술과 그 트레이드오프를 설명한다.

실험 결과

연구 질문

RQ1의료 데이터에 적용된 연합학습에서 주요 통계, 시스템 및 프라이버시 도전과제는 무엇인가?
RQ2의료 FL에서 비 IID 데이터, 통신 병목 및 프라이버시 보존을 다루는 해결책과 방법은 무엇인가?
RQ3연합학습이 EHR 분석, 표현형 인식, 사망/예측 모델링과 같은 의료 작업에 어떻게 적용되었는가?
RQ4의료 정보학에서 FL을 배포하기 위한 남은 질문과 향후 방향은 무엇인가?

주요 결과

문제	ML 방법	# 병원	데이터
Patient Similarity Learning	Hashing	3	MIMIC-III
Patient Similarity Learning	Hashing	20	MIMIC-III
Phenotyping	TF (Tensor Factorization)	1-5	MIMIC-III, UCSD Wah 2011 Caltech
Phenotyping	NLP	10	MIMIC-III

연합학습은 데이터를 로컬에 유지하면서 분절된 의료 데이터를 가로질러 학습을 가능하게 하여 프라이버시 문제를 해결한다.
AFL 및 q-Fair Federated Learning은 비 IID 분포 및 장치 간 공정성을 다루기 위한 제안된 접근이다.
프라이버시 보존 기술에는 안전한 다당 참여 계산과 차등 프라이버시가 포함되며 계산 비용과 정확도 간의 트레이드오프가 있다.
의료 분야의 응용에는 환자 유사도 학습, 표현형 분석, 다중모달 데이터로부터의 표현 학습, 사망/예측 작업이 포함되며 표 1은 대표 연구를 요약한다.
통신 효율성 전략은 모델 압축, 클라이언트 선택, 업데이트 감소, P2P 학습으로 범주화되며 실제 배치 도전과제를 다룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.