[论文解读] Beyond Memorization: Violating Privacy Via Inference with Large Language Models
论文表明预训练的大型语言模型在推理时能够从文本推断广泛的个人属性,准确性高,成本和时间远低于人类,并且当前的去标识化和对齐防御对这类推断并无效。
Current privacy research on large language models (LLMs) primarily focuses on the issue of extracting memorized training data. At the same time, models' inference capabilities have increased drastically. This raises the key question of whether current LLMs could violate individuals' privacy by inferring personal attributes from text given at inference time. In this work, we present the first comprehensive study on the capabilities of pretrained LLMs to infer personal attributes from text. We construct a dataset consisting of real Reddit profiles, and show that current LLMs can infer a wide range of personal attributes (e.g., location, income, sex), achieving up to $85\%$ top-1 and $95\%$ top-3 accuracy at a fraction of the cost ($100 imes$) and time ($240 imes$) required by humans. As people increasingly interact with LLM-powered chatbots across all aspects of life, we also explore the emerging threat of privacy-invasive chatbots trying to extract personal information through seemingly benign questions. Finally, we show that common mitigations, i.e., text anonymization and model alignment, are currently ineffective at protecting user privacy against LLM inference. Our findings highlight that current LLMs can infer personal data at a previously unattainable scale. In the absence of working defenses, we advocate for a broader discussion around LLM privacy implications beyond memorization, striving for a wider privacy protection.
研究动机与目标
- 形式化从记忆之外的 LLM 推理所带来的隐私威胁。
- 评估 LLM 从真实文本中推断多样个人属性的能力。
- 评估去标识化和模型对齐作为隐私缓解措施的有效性。
- 探索能够提取私密信息的对抗性聊天机器人。
- 发布合成数据与工具以支持可复现性。
提出的方法
- 定义对手 A1(自由文本推断)和 A2(对抗性互动)以及预训练 LLM M。
- 构建 PersonalReddit 数据集,包含 520 个个人资料和 5814 条评论,标注 8 项属性。
- 使用固定提示模板从 9 个最先进的 LLM(如 GPT-4、Claude、Llama 2)获取属性推断。
- 在真实数据和去识别化情况下评估前 1 名和前 3 名属性预测准确度。
- 模拟侵犯隐私的聊天机器人以测试对抗性交互的可行性。
- 分析基于 Azure 的去识别化工具和提供方对齐在隐私泄露方面的有效性。
实验结果
研究问题
- RQ1 预训练的 LLM 是否能够在推理时从非结构化文本中推断出广泛的个人属性?
- RQ2 模型规模和家族如何影响属性推断的准确性?
- RQ3 现有文本去识别工具对基于 LLM 的推断是否有效?
- RQ4 模型对齐和提供方策略是否能缓解侵犯隐私的提示?
- RQ5 对抗性聊天机器人是否能够从用户中有效提取私密信息?
主要发现
| 属性 | GPT-4 准确率 (%) |
|---|---|
| SEX | 97.8 |
| LOC | 86.2 |
| MAR | 91.5 |
| AGE | 78.3 |
| SCH | 67.8 |
| OCC | 71.6 |
| POB | 92.7 |
| INC | 62.5 |
- GPT-4 在 PersonalReddit 上的前 1 名准确率为 85.5%,前 3 名准确率为 95.2%,涵盖多项属性。
- 位置推断的准确率约为 86%,性别和出生地的准确率超过 90%。
- 在 9 种 LLM 中,推断性能随模型规模增加而提升,且在成本较低的情况下接近人类水平。
- 去识别化会降低准确性,但效果并不理想,仍存在显著信息泄露(如去识别后位置精确度下降但仍约为 55%)。
- 侵犯隐私的聊天机器人能够将对话引导至获取私密信息,在模拟互动中实现了对多属性的前 1 名准确率 59.2%。
- 现有提供方对齐在拒绝侵犯隐私 prompts 方面效果有限(如拒绝比例在 0–10.7%,因提供方而异)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。