[论文解读] SecureGate: Learning When to Reveal PII Safely via Token-Gated Dual-Adapters for Federated LLMs
SecureGate 引入了一个 token-gated 双适配器(安全与揭示)框架,用于联邦微调大模型,能够有选择地披露个人身份信息(PII),显著降低泄露风险,同时保持效用。
Federated learning (FL) enables collaborative training across organizational silos without sharing raw data, making it attractive for privacy-sensitive applications. With the rapid adoption of large language models (LLMs), federated fine-tuning of generative LLMs has gained attention as a way to leverage distributed data while preserving confidentiality. However, this setting introduces fundamental challenges: (i) privacy leakage of personally identifiable information (PII) due to LLM memorization, and (ii) a persistent tension between global generalization and local utility under heterogeneous data. Existing defenses, such as data sanitization and differential privacy, reduce leakage but often degrade downstream performance. We propose SecureGate, a privacy-aware federated fine-tuning framework for LLMs that provides fine-grained privacy control without sacrificing utility. SecureGate employs a dual-adapter LoRA architecture: a secure adapter that learns sanitized, globally shareable representations, and a revealing adapter that captures sensitive, organization-specific knowledge. A token-controlled gating module selectively activates these adapters at inference time, enabling controlled information disclosure without retraining. Extensive experiments across multiple LLMs and real-world datasets show that SecureGate improves task utility while substantially reducing PII leakage, achieving up to a 31.66X reduction in inference attack accuracy and a 17.07X reduction in extraction recall for unauthorized requests. Additionally, it maintains 100% routing reliability to the correct adapter and incurs only minimal computational and communication overhead.
研究动机与目标
- 解决联邦大模型微调中的 PII 记忆导致的隐私泄露问题。
- 在不暴露敏感数据的前提下實现高全局泛化和局部个性化。
- 引入按请求激活适配器的令牌控制门控机制。
- 在保持路由可靠性的同时降低通信与计算开销。
提出的方法
- 每个组织的双 LoRA 适配器:一个用于清洗的全局知识的安全适配器,一个用于敏感组织特有知识的揭示适配器。
- 基于令牌的门控模块,在推理时根据授权令牌选择合适的适配器。
- 两轮推理以防止令牌污染并确保 unbiased 生成。
- 带有服务端全局适配器的联邦优化,以及在屏蔽数据上进行本地内循环更新,随后融合为面向组织的适配器。
- 通过学习权重(alpha、beta)将全局和本地适配器融合,创建安全和揭示的个性化适配器。
- 在多种大模型和真实世界数据集上进行评估,以评估隐私泄露、效用和效率。
实验结果
研究问题
- RQ1在不牺牲全局与局部效用的前提下,如何实现对大模型的联邦微调以获得强隐私保障?
- RQ2是否可以通过基于令牌的门控机制实现对组织特定 PII 的选择性披露,同时防止敏感信息被未授权方获取?
- RQ3在联邦大模型环境中,隐私防护(数据清洗、差分隐私)与任务性能之间的权衡如何?
- RQ4相比于标准联邦学习基线,双适配器、令牌门控方法的计算与通信开销是多少?
主要发现
- 授权访问可获得较高效用(如推理准确率 25.20%;困惑度 6.32),而未授权访问显著受抑(泄露率 4.20%;困惑度 15.89)。
- SecureGate 在未授权请求的推理攻击准确率降低可达 31.66×,提取召回率降低可达 17.07×。
- 在评估设置中,能够以 100% 的可靠性将路由定向到正确的揭示适配器。
- 该框架在保持全局泛化和局部个性化的同时,额外计算与通信开销极小,主要由适配器融合成本主导。
- 基于令牌的密钥门控提供了稳健的访问控制,即使在防御强化场景(数据清洗、差分隐私)下仍能维护隐私。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。