[论文解读] Radioactive data: tracing through training
本文提出放射性数据,一种在训练数据集中 imprint 不可察觉的标记的方法,使基于其训练的模型在统计上能被识别为使用了该数据,即使仅有1%的数据被标记,p 值低至 1e-4。
We want to detect whether a particular image dataset has been used to train a model. We propose a new technique, \emph{radioactive data}, that makes imperceptible changes to this dataset such that any model trained on it will bear an identifiable mark. The mark is robust to strong variations such as different architectures or optimization methods. Given a trained model, our technique detects the use of radioactive data and provides a level of confidence (p-value). Our experiments on large-scale benchmarks (Imagenet), using standard architectures (Resnet-18, VGG-16, Densenet-121) and training procedures, show that we can detect usage of radioactive data with high confidence (p<10^-4) even when only 1% of the data used to trained our model is radioactive. Our method is robust to data augmentation and the stochasticity of deep network optimization. As a result, it offers a much higher signal-to-noise ratio than data poisoning and backdoor methods.
研究动机与目标
- 实现可追溯性,以在统计保证下判断数据集是否被用于训练模型。
- 开发一种数据标记技术,能保持任务性能并对训练变异具有鲁棒性。
- 提供白盒和黑盒检测方法,用于识别放射性数据的使用。
提出的方法
- 在分类层之前的潜在空间中引入一个类别特定的附加标记(数据同位素)。
- 将标记反向传播到图像像素上,以创建视觉上不可察觉的修改(PSNR 约为 42 dB)。
- 在白盒设置下,使用线性映射 M 和回归,在用不同 φ 网络训练时对齐特征提取子空间。
- 使用载体方向 u 与学习到的分类器之间的余弦相似度,通过β-不完全分布来测试是否存在放射性数据。
- 在标记多个类别时,使用 Fisher 方法将跨类别的多个 p 值结合起来。
- 通过比较标记样本与普通样本的损失或通过蒸馏学生模型,提供黑盒检测。
实验结果
研究问题
- RQ1数据集是否可以用不可察觉的更改进行标记,并在跨架构和优化器的训练中持续存在?
- RQ2对学习到的分类器(或潜在空间)的统计检验是否能够以高置信度揭示被标记数据的存在?
- RQ3该标记技术对数据增强、架构迁移以及从头开始训练的鲁棒性如何?
- RQ4在给定的 p 值下,检测到放射性数据所需的最小标记数据比例是多少?
- RQ5与后门和数据污染方法在可检测性和鲁棒性方面相比,该技术有何差异?
主要发现
- 当仅标记 1% 的训练数据时,放射性标记能以高置信度被检测到(p < 1e-4)。
- 检测对数据增强和跨架构(ResNet-18、ResNet-50、VGG-16、DenseNet-121)的随机训练过程具有鲁棒性。
- 当标记 1% 数据时,标记对模型准确率的影响保持在约±0.1% 内。
- 白盒和黑盒检测是可行的,白盒通常产生更强的信号,中心裁剪增强提高可检测性。
- 迁移到不同数据集和架构仍提供强检测信号,例如 Places205 标记配合 Imagenet 预训练的标记在标记 10% 以上的数据时显示出可检测的放射性。
- 消融分析表明标记让分类器沿载体方向对齐,而语义方向仍然有影响,解释了有限的准确度损失。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。