[논문 리뷰] Substra: a framework for privacy-preserving, traceable and collaborative Machine Learning
Substra는 데이터가 로컬 노드에 남아 있고, 계산은 분산 원장으로 조정되며, 모델 자산은 명시적 권한으로 관리되는 분산형 프레임워크를 통해 협업 ML을 제공합니다.
Machine learning is promising, but it often needs to process vast amounts of sensitive data which raises concerns about privacy. In this white-paper, we introduce Substra, a distributed framework for privacy-preserving, traceable and collaborative Machine Learning. Substra gathers data providers and algorithm designers into a network of nodes that can train models on demand but under advanced permission regimes. To guarantee data privacy, Substra implements distributed learning: the data never leave their nodes; only algorithms, predictive models and non-sensitive metadata are exchanged on the network. The computations are orchestrated by a Distributed Ledger Technology which guarantees traceability and authenticity of information without needing to trust a third party. Although originally developed for Healthcare applications, Substra is not data, algorithm or programming language specific. It supports many types of computation plans including parallel computation plan commonly used in Federated Learning. With appropriate guidelines, it can be deployed for numerous Machine Learning use-cases with data or algorithm providers where trust is limited.
연구 동기 및 목표
- 프라이버시와 협업이 필요한 ML에서 데이터가 민감하거나 분산되어 있을 때의 동기 부여.
- 데이터를 소유자 노드에 보관하면서 협업 모델 학습을 가능하게 하는 프레임워크 제시.
- 권한이 부여된 자산과 원장을 통한 신뢰 없는 감사 가능한 ML 워크플로우 플랫폼 제공.
- ML 작업을 위한 유연하고 확장 가능한 연합 학습을 가능하게 하는 컴퓨트 플랜의 구성 방법 제시.
제안 방법
- 명시적 메타데이터와 상호 운용성 규칙이 포함된 네 가지 자산 유형(Objectives, Datasets, Algorithms, Models)을 정의한다.
- 직접적인 분산 원장에 의해 실행되는 스마트 계약으로 자산 처리 및 다운로드에 대한 권한 체제를 부과한다.
- 트레인튜플과 테스트튜플로 ML 계산을 컴퓨트 플랜 내에서 오케스트레이션하여 순차적 또는 병렬 학습 및 평균화를 가능하게 한다.
- 작업을 추적하고 권한을 시행하기 위해 Hyperledger Fabric 기반 원장을 갖춘 분산 네트워크의 노드를 이용한다.
- 트렁크-헤드 아키텍처와 모듈식 컴퓨트 플랜을 통해 모델 구성 및 전이 학습을 지원한다.
- 자산 생성, 권한 관리, 컴퓨트 플랜 실행을 위한 세 가지 인터페이스(web, CLI, Python SDK)를 제공한다.]
실험 결과
연구 질문
- RQ1데이터를 원문 데이터의 전송 없이 분산된 비공개 데이터에서 ML을 어떻게 학습시킬 수 있는가?
- RQ2비공개 분산 원장이 협업 환경에서 ML 계산에 대한 추적성 및 진위성을 제공할 수 있는가?
- RQ3여러 조직에 걸친 복잡한 연합 ML 작업을 지배하기에 충분한 자산 및 권한 추상화는 무엇인가?
- RQ4컴퓨트 플랜은 프라이버시를 보존하면서 순차적, 병렬 및 하이브리드 연합 학습 및 평가를 어떻게 지원하는가?
주요 결과
- Substra는 데이터가 소유자 노드를 떠나지 않는 원격 프라이버시 보장 ML을 가능하게 한다.
- 스마트 계약이 포함된 개인 분산 원장은 자산 권한을 사전에 적용하고 추적성을 위한 민감하지 않은 메타데이터를 기록한다.
- 컴퓨트 플랜은 순차적, 병렬, 평균화 단계 등 유연한 연합 학습 패턴을 가능하게 한다.
- 자산(Objectives, Datasets, Algorithms, Models)와 그 권한은 데이터/알고리즘 협력, 데이터 컨소시엄, 학습/평가 협력 등의 협업 데이터/협력 알고리즘 사용 사례를 지원한다.
- 모델 구성 및 전이 학습은 트렁크와 프라이빗 헤드를 통해 데이터 프라이버시를 유지하면서도 지원된다.
- 프레임워크는 오픈 소스이며 데이터/알고리즘-언어에 구애받지 않도록 설계되었고, 상호 작용을 위한 다수의 인터페이스를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.