QUICK REVIEW

[論文レビュー] Split learning for health: Distributed deep learning without sharing raw patient data

Praneeth Vepakomma, Otkrist Gupta|arXiv (Cornell University)|Dec 3, 2018

Privacy-Preserving Technologies in Data参考文献 27被引用数 178

ひとこと要約

本論文は、生データやモデルの詳細を共有せずに協調的深層学習を可能にする SplitNN 設定を健康データに対して提案し、その効率を連合学習と大バッチ SGD と比較する。

ABSTRACT

Can health entities collaboratively train deep learning models without sharing sensitive raw data? This paper proposes several configurations of a distributed deep learning method called SplitNN to facilitate such collaborations. SplitNN does not share raw data or model details with collaborating institutions. The proposed configurations of splitNN cater to practical settings of i) entities holding different modalities of patient data, ii) centralized and local health entities collaborating on multiple tasks and iii) learning without sharing labels. We compare performance and resource efficiency trade-offs of splitNN and other distributed deep learning methods like federated learning, large batch synchronous stochastic gradient descent and show highly encouraging results for splitNN.

研究の動機と目的

生データを交換せずに、プライバシー制約（HIPAA、同意）下での協調的な医療学習を促進する。
多種モーダルおよび垂直分割データに適した SplitNN 設定を開発する。
現実的な医療環境において、連合学習および大バッチ SGD に対するリソース効率と性能の優位性を示す。

提案手法

クライアントが切断層まで訓練し、サーバーが活性化を用いて訓練を完了する、バニラのスプリット学習を説明する。
ラベルを共有しない U 字型のスプリット学習設定を紹介する。
多モーダル協調のための垂直分割データ設定を提示する（例：放射線診断と病理）。
精度、クライアント FLOPs、帯域幅の観点で SplitNN を連合学習および大バッチ SGD と比較する。
拡張バニラ、マルチタスク、マルチホップ分割学習を含む補足設定について議論する。）

実験結果

リサーチクエスチョン

RQ1SplitNN は生データやラベルを共有せずに正確な分散学習を実現できるか？
RQ2医療系データに類似したデータセットにおける SplitNN、連合学習、そして大バッチ SGD の資源（計算量と帯域幅）のトレードオフはどうなるか？
RQ3SplitNN の設定は垂直分割データやマルチタスク/マルチモーダルの導入をどう扱うか？
RQ4実用的な医療協力への SplitNN の実現可能な拡張（例：マルチホップ、マルチタスク）は何か？

主な発見

方法	100 クライアント	500 クライアント
Computation resources (TFlops)	0.1548	0.03
Large Batch SGD	29.4	5.89
Federated Learning	29.4	5.89

SplitNN は CIFAR-10/100 ベンチマークで、100および500クライアント（VGG/ResNet-50）を用いた場合、連合学習と大バッチ SGD よりもはるかに低いクライアント側計算でより高い精度を達成する。
Table 1 は SplitNN が 0.1548 TFlops（100 クライアント）および 0.03 TFlops（500 クライアント）を必要とするのに対し、Large Batch SGD および Federated Learning は 29.4/5.89 TFlops であることを示す。
Table 2 は SplitNN の帯域幅が 6 GB（100 クライアント）および 1.2 GB（500 クライアント）、対して Large Batch SGD が 13/14 GB、Federated Learning が 3/2.4 GB であることを示す。
SplitNN の設定は協力しないユニット、ラベルなし学習、垂直分割データによるマルチモーダル協調をサポートする。
SplitNN は大規模設定にスケーラブルで、最新のアーキテクチャにも適合する。モデル圧縮による潜在的な利得について議論されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。