[论文解读] Random depthwise signed convolutional neural networks.
本文提出了一种随机深度可分离符号卷积神经网络,通过使用随机卷积块和全局平均池化,为图像分类与检索生成k维特征空间。即使在权重随机初始化且无反向传播的情况下,该方法仍实现了接近90%的Top-2准确率(在CIFAR10和mini-ImageNet上),性能与训练好的网络相当。
We propose a random convolutional neural network to generate a feature space in which we study image classification and retrieval performance. Put briefly we apply random convolutional blocks followed by global average pooling to generate a new feature, and we repeat this k times to produce a k-dimensional feature space. This can be interpreted as partitioning the space of image patches with random hyperplanes which we formalize as a random depthwise convolutional neural network. In the network's final layer we perform image classification and retrieval with the linear support vector machine and k-nearest neighbor classifiers and study other empirical properties. We show that the ratio of image pixel distribution similarity across classes to within classes is higher in our network's final layer compared to the input space. When we apply the linear support vector machine for image classification we see that the accuracy is higher than if we were to train just the final layer of VGG16, ResNet18, and DenseNet40 with random weights. In the same setting we compare it to an unsupervised feature learning method and find our accuracy to be comparable on CIFAR10 but higher on CIFAR100 and STL10. We see that the accuracy is not far behind that of trained networks, particularly in the top-k setting. For example the top-2 accuracy of our network is near 90% on both CIFAR10 and a 10-class mini ImageNet, and 85% on STL10. We find that k-nearest neighbor gives a comparable precision on the Corel Princeton Image Similarity Benchmark than if we were to use the final layer of trained networks. As with other networks we find that our network fails to a black box attack even though we lack a gradient and use the sign activation. We highlight sensitivity of our network to background as a potential pitfall and an advantage. Overall our work pushes the boundary of what can be achieved with random weights.
研究动机与目标
- 探索仅使用符号激活的随机卷积网络是否能在无训练的情况下生成有效的特征表示。
- 评估此类网络在图像分类与检索任务中使用线性分类器的性能。
- 将所提方法与训练好的模型及无监督特征学习方法在标准基准上进行比较。
- 分析尽管缺乏梯度,该网络对对抗性攻击的鲁棒性。
- 研究网络对图像背景的敏感性,以评估其作为潜在优势或局限性的可能。
提出的方法
- 该方法对图像块应用随机深度可分离卷积块,随后通过ReLU和符号激活函数提取特征。
- 对每个随机块的输出应用全局平均池化,以生成每个块的单一特征向量。
- 该过程重复k次,以生成k维特征空间,本质上通过随机超平面划分图像块空间。
- 最终的特征表示用于线性支持向量机(SVM)进行分类,以及用于k近邻(k-NN)进行检索。
- 网络不使用反向传播或学习权重;所有层均随机初始化且固定不变。
- 使用符号激活函数以增强稀疏性并提升鲁棒性,即使在无梯度的情况下亦然。
实验结果
研究问题
- RQ1随机深度可分离符号卷积网络是否能在无任何训练的情况下生成具有判别性的特征表示?
- RQ2该随机网络在图像分类任务上的性能与微调后的VGG16、ResNet18和DenseNet40等模型相比如何?
- RQ3所提方法是否在小规模(CIFAR10)和大规模(mini-ImageNet)基准上均实现具有竞争力的准确率?
- RQ4与从训练网络中提取的特征相比,该网络在图像检索任务上的表现如何?
- RQ5尽管缺乏梯度且使用符号激活,该网络是否对对抗性攻击保持鲁棒?
主要发现
- 与输入空间相比,最终层的类间与类内图像像素分布相似性比率更高,表明类别分离效果更优。
- 该随机网络在CIFAR10和10类mini-ImageNet上的Top-2准确率接近90%,性能接近训练好的模型。
- 在STL10上,Top-2准确率达到85%,表明其在更复杂数据上也具备强大的泛化能力。
- 在Corel Princeton图像相似性基准上,使用k-NN的性能与从训练网络最后一层提取的特征相当。
- 尽管无梯度且使用符号激活,该网络对黑盒对抗性攻击仍保持鲁棒。
- 网络对背景表现出敏感性,这可能构成局限性,但也可能在特定应用场景下成为潜在优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。