[논문 리뷰] Visual Prompt Based Personalized Federated Learning
이 논문은 이미지 분류를 위한 개인화 연합학습 프레임워크인 pFedPT를 소개합니다. 이는 클라이언트별 프롬프트를 사용해 로컬 데이터 분포를 암시적으로 인코딩하고 공유 백본을 안내하며, CIFAR-10/100에서 최첨단 PFL 방법들보다 개인화 및 성능을 향상시킵니다.
As a popular paradigm of distributed learning, personalized federated learning (PFL) allows personalized models to improve generalization ability and robustness by utilizing knowledge from all distributed clients. Most existing PFL algorithms tackle personalization in a model-centric way, such as personalized layer partition, model regularization, and model interpolation, which all fail to take into account the data characteristics of distributed clients. In this paper, we propose a novel PFL framework for image classification tasks, dubbed pFedPT, that leverages personalized visual prompts to implicitly represent local data distribution information of clients and provides that information to the aggregation model to help with classification tasks. Specifically, in each round of pFedPT training, each client generates a local personalized prompt related to local data distribution. Then, the local model is trained on the input composed of raw data and a visual prompt to learn the distribution information contained in the prompt. During model testing, the aggregated model obtains prior knowledge of the data distributions based on the prompts, which can be seen as an adaptive fine-tuning of the aggregation model to improve model performances on different clients. Furthermore, the visual prompt can be added as an orthogonal method to implement personalization on the client for existing FL methods to boost their performance. Experiments on the CIFAR10 and CIFAR100 datasets show that pFedPT outperforms several state-of-the-art (SOTA) PFL algorithms by a large margin in various settings.
연구 동기 및 목표
- 모델 중심적 접근을 넘어 데이터 분포를 고려한 개인화의 필요성을 연합학습에서 제고한다.
- 로컬 데이터 분포 정보를 인코딩하기 위해 클라이언트별 시각 프롬프트를 사용하는 새로운 프레임워크를 제안한다.
- 클라이언트별 미세 조정을 달성하기 위해 프롬프트 생성기와 공유 백본의 교대 학습을 가능하게 한다.
- 프롬프트가 다른 FL/PFL 방법을 개선하기 위한 플러그인 역할을 할 수 있음을 입증하고 표준 벤치마크에서 성능을 향상시킨다.
제안 방법
- 각 클라이언트는 로컬 프롬프트 생성기와 백본을 유지한다.
- 클라이언트별로 개인화된 시각 프롬프트가 생성되어 학습 중 로컬 입력에 추가된다.
- 교대 최적화: 백본을 동결한 상태에서 프롬프트 생성기를 업데이트하고, 프롬프트를 동결한 상태에서 백본을 업데이트한다.
- 서버는 각 통신 라운드마다 Federated averaging을 사용하여 클라이언트들 간의 백본을 집계한다.
- 프롬프트의 크기/유형을 다양하게 시도한다; 크기 4의 패딩 기반 프롬프트가 CIFAR-10 실험에서 최적의 성능을 보인다.
- 목표는 백본 매개변수와 클라이언트별 프롬프트 모두에 대한 손실을 최소화한다: L(w, δ_i) = E_{(x,y)~D_i}[ℓ_i(w; (x+δ_i, y))].

실험 결과
연구 질문
- RQ1클라이언트별 시각 프롬프트가 로컬 데이터 분포를 인코딩하여 공유 백본을 안내해 더 나은 개인화 성능을 이끌 수 있는가?
- RQ2표준 이미지 분류 벤치마크에서 비 IID 설정에서 기존 PFL 베이스라인과 pFedPT의 비교는 어떠한가?
- RQ3프롬프트가 pFedPT 이외의 다른 FL/PFL 방법에도 플러그인 개선을 제공하는가?
- RQ4실무에서 어떤 프롬프트 설계(위치 및 크기)가 최상의 성능을 내는가?
주요 결과
- pFedPT는 다양한 비 IID 설정에서 CIFAR-10/100에 대해 기준선보다 일관되게 최고 시험 정확도를 달성한다.
- Dirichlet CIFAR-10에서 CNN을 사용할 때, pFedPT는 80.83%에 도달하고 FedAvg는 61.92%, FedPer는 77.98%로 나타나 주목할 만한 개선을 보여준다.
- pFedPT는 ViT와 CNN 백본 모두에서 강건성을 보이며 데이터 이질성이 증가할수록 더 큰 이점을 얻는 것으로 보인다.
- 프롬프트를 활용한 프롬프트는 백본에 분포 인식 정보를 제공하여 다른 FL 방법들(예: FedProx, MOON, FedRep)을 향상시킬 수 있다.
- CIFAR-10에 대한 ablation study에서 크기 4의 패딩 프롬프트가 최상의 성능을 제공하며, 다른 프롬프트 설계는 다소 미치지 못했다.
- 시각적 분석(Grad-CAM, t-SNE)은 프롬프트가 주의 집중과 임베딩을 클라이언트별 정보를 인코딩하도록 이동시켜 분류를 돕는다고 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.