QUICK REVIEW

[论文解读] Towards Reverse-Engineering Black-Box Neural Networks

Seong Joon Oh, Max Augustin|arXiv (Cornell University)|Nov 6, 2017

Adversarial Robustness in Machine Learning被引用 46

一句话总结

本文提出一种通过查询输入输出对来逆向工程黑箱神经网络的方法，以推断模型的架构、优化算法和训练数据集等属性。通过在多样化的白箱模型上训练的元模型，该方法能够高精度地预测这些属性，并表明这种知识可显著提升对抗性攻击的有效性，模糊了白箱与黑箱模型之间的界限。

ABSTRACT

Many deployed learned models are black boxes: given input, returns output. Internal information about the model, such as the architecture, optimisation procedure, or training data, is not disclosed explicitly as it might contain proprietary information or make the system more vulnerable. This work shows that such attributes of neural networks can be exposed from a sequence of queries. This has multiple implications. On the one hand, our work exposes the vulnerability of black-box neural networks to different types of attacks -- we show that the revealed internal information helps generate more effective adversarial examples against the black box model. On the other hand, this technique can be used for better protection of private content from automatic recognition models using adversarial examples. Our paper suggests that it is actually hard to draw a line between white box and black box models.

研究动机与目标

探究仅通过输入输出查询，黑箱神经网络的内部属性在多大程度上可被推断。
解决黑箱模型在逆向工程方面的脆弱性，特别是涉及知识产权和隐私的问题。
开发一个元模型，仅使用查询响应来预测模型属性（如架构、优化器、训练数据）。
证明通过逆向工程获得的知识可提升黑箱模型上对抗性攻击的有效性。
探究方法在不同模型族和查询质量下的泛化能力，以评估推断方法的鲁棒性。

提出的方法

在多样化的白箱模型元训练集上训练元模型，以从输入输出查询响应中预测属性。
将基于查询的输入输出对作为元模型的输入特征，避免依赖模型内部参数。
采用主动查询优化策略，选择能最大化属性预测信息增益的输入。
通过在预测的模型族上生成扰动，利用对抗样本的可迁移性，而非随机架构。
使用留一法交叉验证评估对抗样本在同族模型间的可迁移性。
比较不同场景下的攻击性能：白箱、已知族的黑箱，以及完全未知的黑箱。

实验结果

研究问题

RQ1在多大程度上，可从黑箱查询响应中推断出模型架构、优化过程和训练数据集？
RQ2查询的质量和数量如何影响属性推断的准确性？
RQ3通过逆向工程获得的模型属性能否提升对黑箱模型的对抗性攻击成功率？
RQ4对抗样本在同族模型间的可迁移性是否优于跨不同架构的可迁移性？
RQ5当目标黑箱模型与元训练分布不同时，该元模型的泛化能力如何？

主要发现

元模型在仅使用输入输出查询的情况下，能以高精度预测模型属性，如架构族、优化器（例如SGD与ADAM）以及训练数据集。
当正确预测出模型族时，对抗性攻击的误分类率达到85.7%，接近族oracle情况（86.2%），显著优于缺乏先验知识的攻击。
同族内的对抗迁移性优于跨族迁移性，表4中的对角线条目显示同一架构族内的成功率更高。
针对同一族中的多个模型（如ResNet101、ResNet152）生成对抗样本，比针对单个模型或多个无关族的模型更有效。
通过聚焦于预测的模型族，该方法显著降低了有效攻击的查询成本，表明逆向工程可提升攻击效率。
本研究表明，白箱与黑箱模型之间的界限已被模糊，因为黑箱模型可被有效逆向工程，从而实现类似白箱的攻击。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。