Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-site fMRI Analysis Using Privacy-preserving Federated Learning and Domain Adaptation: ABIDE Results

Xiaoxiao Li, Yufeng Gu|arXiv (Cornell University)|2020. 01. 16.
Privacy-Preserving Technologies in Data참고 문헌 50인용 수 27
한 줄 요약

이 논문은 ABIDE 데이터셋을 사용하여 다중 기관 fMRI 분석을 위한 프라이버시 보장형 연합 학습 프레임워크를 제안하며, 원시 데이터를 공유하지 않고도 협업 학습을 가능하게 한다. 무작위 모델 가중치 집계와 두 가지 도메인 적응 기법(MoE 및 적대적 정렬)을 결합함으로써, ASD 대 비정상 대조군(HC)의 분류 정확도를 향상시키면서도 환자 프라이버시를 유지하고 기관 간 데이터 분포의 변화를 해결한다.

ABSTRACT

Deep learning models have shown their advantage in many different tasks, including neuroimage analysis. However, to effectively train a high-quality deep learning model, the aggregation of a significant amount of patient information is required. The time and cost for acquisition and annotation in assembling, for example, large fMRI datasets make it difficult to acquire large numbers at a single site. However, due to the need to protect the privacy of patient data, it is hard to assemble a central database from multiple institutions. Federated learning allows for population-level models to be trained without centralizing entities' data by transmitting the global model to local entities, training the model locally, and then averaging the gradients or weights in the global model. However, some studies suggest that private information can be recovered from the model gradients or weights. In this work, we address the problem of multi-site fMRI classification with a privacy-preserving strategy. To solve the problem, we propose a federated learning approach, where a decentralized iterative optimization algorithm is implemented and shared local model weights are altered by a randomization mechanism. Considering the systemic differences of fMRI distributions from different sites, we further propose two domain adaptation methods in this federated learning formulation. We investigate various practical aspects of federated model optimization and compare federated learning with alternative training strategies. Overall, our results demonstrate that it is promising to utilize multi-site data without data sharing to boost neuroimage analysis performance and find reliable disease-related biomarkers. Our proposed pipeline can be generalized to other privacy-sensitive medical data analysis problems.

연구 동기 및 목표

  • 대부분의 의료 기관에서 개인정보 및 규제 제약으로 인해 데이터가 분산되어 있을 때, 대규모 데이터를 활용한 고정확도 딥 러닝 모델을 fMRI 기반 뇌영상 분석에 적용하는 데 도전하는 것.
  • 원시 fMRI 데이터의 중앙집중화를 피함으로써 환자 프라이버시를 보호하는 연합 학습 프레임워크를 개발하여, 모델 재구성 공격을 방지하기 위해 무작위 모델 가중치 업데이트를 사용하는 것.
  • 스캐닝 프로토콜, 장비, 참가자 지침의 차이로 인해 발생하는 도메인 이동 문제를 완화하여 모델의 일반화 능력을 떨어뜨리는 것을 방지하는 것.
  • 자기주도 장애(ASD)와 건강 대조군(HC)을 분류하는 데 있어, 도메인 적응 기법을 통합한 연합 학습의 성능을 대안적 학습 전략과 비교 평가하는 것.
  • 분산형이고 프라이버시 보장형 딥 러닝 파이프라인을 통해 ASD에 대한 신뢰할 수 있는 기능적 연결 생물학적 지표를 식별하는 것.

제안 방법

  • 현장에서 기관별 fMRI 데이터를 사용해 로컬 모델을 훈련하고, 국지적 기울기 또는 가중치의 평균을 통해 글로벌 모델 가중치를 업데이트하는 분산형 연합 학습 설정을 구현한다.
  • 공유되는 모델 가중치에 무작위화 메커니즘을 적용하여 프라이버시 泄露를 방지하며, 모델 역전환 및 재구성 공격에 대비해 노이즈 주입을 방어 수단으로 사용한다.
  • 기관별 전문가를 학습하고 예측을 적절히 조합하는 데 도메인 적응을 위한 믹스처 오브 응용(MoE) 기법을 도입한다.
  • 도메인 분류기(Domain Discriminator)를 통해 잠재 표현 간의 도메인 차이를 최소화함으로써, 다양한 기관의 잠재 표현을 정렬하는 적대적 도메인 정렬 기법을 적용한다.
  • 다양한 모델의 예측을 조합하는 앙상블 전략을 사용하여 정확도와 내성 강도를 향상시킨다.
  • 다중 기관 fMRI 데이터셋(ABIDE)을 대상으로 교차 기관 검증을 수행하며, 정확도, AUC, F1 점수 등의 표준 지표를 사용해 모델 성능을 평가한다.

실험 결과

연구 질문

  • RQ1프라이버시 보장 메커니즘을 통합한 연합 학습이 원시 데이터를 공유하지 않고도 fMRI 기반 ASD 분류를 위한 딥 러닝 모델을 효과적으로 훈련시킬 수 있는가?
  • RQ2MoE 및 적대적 정렬과 같은 도메인 적응 기법의 포함이 다양한 기관의 이질적인 fMRI 데이터에서 모델 성능을 어떻게 향상시키는가?
  • RQ3통신 빈도와 모델 무작위화가 다중 기관 fMRI 환경에서 모델 정확도와 프라이버시 보호에 어떤 영향을 미치는가?
  • RQ4제안된 연합 학습 프레임워크는 일반화 가능한 기능적 연결 생물학적 지표를 식별할 수 있는가?
  • RQ5도메인 적응은 어떤 조건에서 연합 fMRI 분석에서 성능 향상에 기여하는가?

주요 결과

  • 프라이버시 보장 무작위화를 통합한 제안된 연합 학습 프레임워크는 중앙집중 훈련 수준의 경쟁력 있는 분류 성능를 달성하여, 고정확도 모델을 구축하기 위해 데이터 공유가 필수적이지 않음을 입증한다.
  • 특히 MoE 및 적대적 정렬을 포함한 도메인 적응 기법은 네 기관 중 두 곳에서 분류 정확도를 향상시켰으며, 한 기관에선 성능 유지, 한 기관에선 향상 없음을 보여, 성능 향상 효과가 맥락에 따라 달라질 수 있음을 시사한다.
  • 시험 범위 내에서 통신 빈도(글로벌 모델 업데이트 빈도)는 모델 성능에 유의미한 영향을 미치지 않아, 현재 설정에서 이 하이퍼파라미터에 대해 강건함을 보였다.
  • 모델은 전두엽 피질, 쌍측 소수체, 상부 편측 피질 등에서 일관된 활성화 패턴을 보이는 뇌 기능적 연결 패턴을 식별하여 잠재적 생물학적 지표로 제안한다.
  • 앙상블 기법의 사용은 개별 모델 대비 성능 향상을 이끌었으며, 스태킹이나 기울기 부스팅과 같은 고급 앙상블 기법은 추가적인 성능 향상 가능성을 보였다.
  • 본 연구는 도메인 적응을 통합한 연합 학습이 희귀 질환의 환자 수가 제한된 경우에도 유효하고 프라이버시를 보장하는 다중 기관 뇌영상 연구에 실현 가능하다는 점을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.