QUICK REVIEW

[논문 리뷰] Interpret Federated Learning with Shapley Values

Guan Wang|arXiv (Cornell University)|2019. 05. 11.

Privacy-Preserving Technologies in Data참고 문헌 15인용 수 19

한 줄 요약

이 논문은 수치적 특성 중요도를 주는 호스트 특성과 통합된 중요도 점수를 부여하는 게스트 특성에 대해, Shapley 값에 기반한 기밀성 보장 해석 방법을 제안한다. 이 방법은 모델의 설명 가능성과 데이터 기밀성을 균형 잡고, 게스트 데이터가 보호되는 동안 모델 예측에 대한 실질적인 통찰을 가능하게 한다.

ABSTRACT

Federated Learning is introduced to protect privacy by distributing training data into multiple parties. Each party trains its own model and a meta-model is constructed from the sub models. In this way the details of the data are not disclosed in between each party. In this paper we investigate the model interpretation methods for Federated Learning, specifically on the measurement of feature importance of vertical Federated Learning where feature space of the data is divided into two parties, namely host and guest. For host party to interpret a single prediction of vertical Federated Learning model, the interpretation results, namely the feature importance, are very likely to reveal the protected data from guest party. We propose a method to balance the model interpretability and data privacy in vertical Federated Learning by using Shapley values to reveal detailed feature importance for host features and a unified importance value for federated guest features. Our experiments indicate robust and informative results for interpreting Federated Learning models.

연구 동기 및 목표

게스트 당사자의 데이터 기밀성을 훼손하지 않으면서 수직 분산 학습 모델을 해석하는 데 도전하는 것.
호스트 당사자의 특성에 대해 세분화된 특성 중요도를 할당하면서도 게스트 당사자의 특성 기밀성을 유지하는 방법을 개발하는 것.
분산 학습 환경에서 모델의 설명 가능성과 데이터 기밀성 간의 균형을 이루는 것.
게임 이론 원리를 활용하여 기반으로 하는 통합된, 기밀성을 보장하는 해석 프레임워크를 제공하는 것.

제안 방법

협동 게임 이론을 활용하여 공정한 기여도를 부여하기 위해, 수직 분산 학습에서 특성 중요도를 정량화하기 위해 Shapley 값을 사용한다.
개별 예측 해석을 위해 호스트 당사자로부터 온 특성에 대해 세부적인 Shapley 값을 할당한다.
개별 데이터 패턴 泄露 를 방지하기 위해 게스트 당사자로부터 온 모든 특성에 통합된 Shapley 값을 적용한다.
분산된 데이터에서 훈련된 하위 모델들로부터 메타모델을 구축하여 데이터 국지성과 기밀성을 유지한다.
원시 데이터 공유가 필요 없이 분산 학습 파이프라인에 Shapley 기반 해석을 통합한다.
특성 중요도 점수의 공정성과 일관성을 보장하기 위해 대칭적 집계 전략을 활용한다.

실험 결과

연구 질문

RQ1민감한 게스트 파arty 특성을 보호하면서도 수직 분산 학습에서 개별 예측을 어떻게 해석할 수 있는가?
RQ2원시 게스트 데이터를 폭 드러내지 않고 분산 학습에서 특성 중요도를 최적화해 할당하는 방법은 무엇인가?
RQ3Shapley 값은 기밀성을 유지하면서도 분산 환경에서 높은 설명 가능성 유지에 적합하게 조정될 수 있는가?
RQ4통합된 게스트 특성 중요도 점수는 개별 특성 기여도 할당에 비해 충실도와 기밀성 측면에서 어떻게 비교되는가?

주요 결과

제안된 방법은 개별 게스트 특성을 드러내지 않으면서도 강력하고 정보적인 해석 결과를 달성한다.
Shapley 값은 호스트 및 게스트 당사자 양측에서 특성 중요도에 대해 공정하고 일관된 기여도를 제공한다.
통합된 게스트 특성 중요도 점수는 데이터 泄露 를 효과적으로 방지하면서도 설명 가능성은 유지한다.
실험 결과, 다양한 수직 분산 학습 시나리오에서 모델의 충실도와 설명 가능성 유지에 성공하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.