[论文解读] Learning Anonymized Representations with Adversarial Neural Networks
本文提出一个三网络对抗框架,学习在保持常规预测任务信息的同时隐瞒私人身份信息的数据表征,在数字、情感与人脸数据集上得到验证。
Statistical methods protecting sensitive information or the identity of the data owner have become critical to ensure privacy of individuals as well as of organizations. This paper investigates anonymization methods based on representation learning and deep neural networks, and motivated by novel information theoretical bounds. We introduce a novel training objective for simultaneously training a predictor over target variables of interest (the regular labels) while preventing an intermediate representation to be predictive of the private labels. The architecture is based on three sub-networks: one going from input to representation, one from representation to predicted regular labels, and one from representation to predicted private labels. The training procedure aims at learning representations that preserve the relevant part of the information (about regular labels) while dismissing information about the private labels which correspond to the identity of a person. We demonstrate the success of this approach for two distinct classification versus anonymization tasks (handwritten digits and sentiment analysis).
研究动机与目标
- 激励并将表示的匿名化形式化,以在保护私人标签的同时保留关于常规标签的信息。
- 提出一个信息理论目标,指导对净化表示的学习。
- 提出一个三网络架构(编码器、常规标签预测器、私人标签预测器),通过对抗训练在隐私和实用性之间取得平衡。
- 给出一个可行的训练目标,鼓励隐私保护而不牺牲常规任务的性能。
- 在手写数字和情感/表情数据集上证明可行性。
提出的方法
- 引入一个编码器 Q_{U|X},将输入映射到表示,再加上两个预测器 Q_{\,Y|U} 和 Q_{\,Z|U},用于常规标签和私人标签。
- 推导一个信息理论的代理目标,将 Y 的经验风险与受 lambda 控制的隐私项耦合起来。
- 采用三网络对抗设置,其中编码器学习最大化从 U 预测 Z 的难度,同时帮助 Y 的预测。
- 采用经验交叉熵目标和互信息的代理量来近似匿名化约束。
- 实现一个训练过程,在更新预测器和对抗性更新编码器之间交替(切换训练)。
- 在 Pen-digits(作者身份和数字)、FERG(面部表情)和 JAFFE 数据集上进行评估,以说明在不同领域的匿名化。
实验结果
研究问题
- RQ1如何学习表示以最小化私人标签信息同时保留关于常规标签的信息?
- RQ2哪些目标与训练过程能够在深度网络中有效地在匿名化与预测效用之间取得平衡?
- RQ3在手写、情感和面部表情任务的匿名化设置中,所提出的框架表现如何?
- RQ4有哪些可行的互信息近似方法能够实现可处理的训练?
- RQ5训练策略(切换训练 vs 同时训练)对匿名化-效用权衡有何影响?
主要发现
- 三网络对抗架构可以学习到匿名化的表征,使私人标签预测下降而常规标签预测保持准确。
- 信息理论代理目标通过将经验风险与受超参数 lambda 控制的隐私相关项结合起来,实现可处理的训练。
- 切换训练在评估任务中比同时训练在人隐私和实用性权衡上表现更好。
- 实证结果表明该方法可以在数字书写者和人脸中实现身份隐匿,同时保留数字和表情等任务相关信息。
- 该方法基于经验互信息界限和交叉熵代理,提供了私人标签错误分类概率的可计算下界。
- 该框架在多模态下显示出鲁棒性,体现了有监督学习中匿名化表征的普遍适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。