[논문 리뷰] Multi-Participant Multi-Class Vertical Federated Learning
MMVFL은 두 명 이상 참여자가 있는 다중 참가자 수직 연합학습(VFL)을 위한 프라이버시 보호 프레임워크를 도입하여 라벨 소유자에서 다른 이들에게 라벨 공유를 가능하게 하고 통신 오버헤드를 줄이기 위한 특징 선택을 수행합니다. 이는 감독 기반 기준선과 비교 가능한 다클래스 성능을 달성합니다.
Federated learning (FL) is a privacy-preserving paradigm for training collective machine learning models with locally stored data from multiple participants. Vertical federated learning (VFL) deals with the case where participants sharing the same sample ID space but having different feature spaces, while label information is owned by one participant. Current studies of VFL only support two participants, and mostly focus on binaryclass logistic regression problems. In this paper, we propose the Multi-participant Multi-class Vertical Federated Learning (MMVFL) framework for multi-class VFL problems involving multiple parties. Extending the idea of multi-view learning (MVL), MMVFL enables label sharing from its owner to other VFL participants in a privacypreserving manner. To demonstrate the effectiveness of MMVFL, a feature selection scheme is incorporated into MMVFL to compare its performance against supervised feature selection and MVL-based approaches. Experiment results on real-world datasets show that MMVFL can effectively share label information among multiple VFL participants and match multi-class classification performance of existing approaches.
연구 동기 및 목표
- 수직 연합학습 (VFL)을 다중 참가자로 구성된 다클래스 문제로 확장한다.
- 라벨 소유자로부터 다른 참가자들에게 프라이버시를 보호하는 라벨 공유를 가능하게 한다.
- 통신 및 계산 비용을 평가하고 감소시키기 위한 특징 선택을 포함한다.
- VFL 효율성을 개선하기 위해 각 참가자의 특징 중요도를 평가하는 메커니즘을 제공한다.
- 실제 데이터셋에서 경쟁력 있는 다클래스 분류 성능을 입증한다.
제안 방법
- MMVFL을 각 참가자마다 개별 모델을 가지는 다뷰 학습에 영감을 받은 VFL 프레임워크로 모델링한다.
- l2,1 정규화(Eq. 1)가 포함된 최적화를 통해 각 참가자별 특징 중요도를 계산하기 위해 희소 학습 기반의 비지도 특징 선택을 사용한다.
- 레이블 공유를 적응하기 위해 가짜 레이블 행렬 Z_k 및 라벨 소유자의 실제 레이블 Y로의 공유 Z를 도입한다(Eq. 3).
- 패널티 항(Eq. 4)로 단단한 제약을 완화하고 교대 최적화를 통해 W_k(Eq. 8), Z_k(Eq. 11/12), Z(Eq. 14)를 업데이트하여 해결한다.
- 참가자들이 로컬 W_k, Z_k를 업데이트하고 중앙 Z를 업데이트하는 병렬화된 연합 학습 절차(Algorithm 1)를 제공한다.
- 수렴(목적 함수의 비증가) 및 한 이터레이션당 시간 복잡도가 가장 느린 참가자에 의해 지배된다는 점을 논의하고, O((max_k d_k)^3)이다.
실험 결과
연구 질문
- RQ1MMVFL이 두 명을 넘어서는 다수의 참가자와 함께 프라이버시를 유지하며 효과적인 다클래스 VFL을 가능하게 할 수 있는가?
- RQ2레이블 소유자의 다른 참가자에 대한 라벨 공유가 VFL의 다클래스 분류 성능을 향상시키는가?
- RQ3MMVFL에서 특징 중요도 기반의 특징 선택이 실행 가능하고 통신 및 계산 비용 감소에 이로운가?
주요 결과
| 데이터셋 | P1 | P2 | P3 | P4 | P5 | P6 | 평균 |
|---|---|---|---|---|---|---|---|
| Handwritten | 1.46 | -2.39 | 0.76 | 6.48 | 0.77 | - | 1.42 |
| Handwritten | 1.99 | -2.31 | 1.03 | 9.67 | 1.16 | - | 2.31 |
| Caltech7 | 0.69 | 2.16 | 1.55 | -1.22 | -6.29 | -4.12 | -1.21 |
| Caltech7 | 0.41 | 2.82 | 2.61 | -1.18 | -5.71 | -4.20 | -0.88 |
- MMVFL은 원시 데이터를 노출하지 않으면서 라벨 공유를 달성하고 감독 기반 기준선과 비교하여 경쟁력 있는 다클래스 성능을 달성한다.
- Handwritten 데이터에서 MMVFL은 참가자들 간 평균적으로 약 2.31 포인트까지 두 기준선보다 우수했다.
- Caltech7에서 MMVFL 성능은 평균적으로 감독 기준선에 근접하거나 약간 낮아, 프라이버시를 보호하는 설정에서 경쟁력 있는 결과를 보여준다.
- 덜 정보성 특징의 제거를 특징 중요도 기반으로 수행하면 많은 경우 정확도를 유지하면서 통신 및 계산을 줄일 수 있다.
- MVL 기반 감독(supMVLFL)은 비-MVL 기준선보다 성능을 향상시킬 수 있으며, MMVFL은 원시 데이터를 공유하지 않고도 유사한 이득을 달성할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.