[論文レビュー] Random depthwise signed convolutional neural networks.
本論文は、ランダムな畳み込みブロックとグローバル平均プーリングを用いて、画像分類および検索のためのk次元特徴空間を生成するランダムな深度方向符号付き畳み込みニューラルネットワークを提案する。重みをランダムに初期化し、バックプロパゲーションを一切行わないにもかかわらず、90%に近いトップ2精度を達成しており、学習済みネットワークと同等の性能を示す。
We propose a random convolutional neural network to generate a feature space in which we study image classification and retrieval performance. Put briefly we apply random convolutional blocks followed by global average pooling to generate a new feature, and we repeat this k times to produce a k-dimensional feature space. This can be interpreted as partitioning the space of image patches with random hyperplanes which we formalize as a random depthwise convolutional neural network. In the network's final layer we perform image classification and retrieval with the linear support vector machine and k-nearest neighbor classifiers and study other empirical properties. We show that the ratio of image pixel distribution similarity across classes to within classes is higher in our network's final layer compared to the input space. When we apply the linear support vector machine for image classification we see that the accuracy is higher than if we were to train just the final layer of VGG16, ResNet18, and DenseNet40 with random weights. In the same setting we compare it to an unsupervised feature learning method and find our accuracy to be comparable on CIFAR10 but higher on CIFAR100 and STL10. We see that the accuracy is not far behind that of trained networks, particularly in the top-k setting. For example the top-2 accuracy of our network is near 90% on both CIFAR10 and a 10-class mini ImageNet, and 85% on STL10. We find that k-nearest neighbor gives a comparable precision on the Corel Princeton Image Similarity Benchmark than if we were to use the final layer of trained networks. As with other networks we find that our network fails to a black box attack even though we lack a gradient and use the sign activation. We highlight sensitivity of our network to background as a potential pitfall and an advantage. Overall our work pushes the boundary of what can be achieved with random weights.
研究の動機と目的
- トレーニングなしで、符号付き活性化関数を用いたランダム畳み込みネットワークが、有効な特徴表現を生成できるかどうかを検証すること。
- 線形分類器を用いて、そのようなネットワークの画像分類および検索タスクにおける性能を評価すること。
- 標準ベンチマーク上で、提案手法を学習済みモデルおよび非教師あり特徴学習手法と比較すること。
- 勾配が存在しないにもかかわらず、このネットワークが adversarial 攻撃に対してどれほど頑健であるかを分析すること。
- 画像の背景に対するネットワークの感受性を、潜在的な利点または制限として調査すること。
提案手法
- ランダムな深度方向畳み込みブロックを適用し、その後にReLUおよび符号活性化関数を適用して、画像パッチからの特徴を抽出する。
- 各ランダムブロックの出力に対してグローバル平均プーリングを適用し、1つのブロックあたり1つの特徴ベクトルを生成する。
- このプロセスをk回繰り返すことで、k次元の特徴空間を生成し、ランダムな超平面によって画像パッチ空間を効果的に分割する。
- 最終的な特徴表現は、分類には線形サポートベクターマシン(SVM)を、検索にはk近傍法(k-NN)を用いる。
- バックプロパゲーションや学習済み重みは一切使用せず、すべての層がランダムに初期化され、固定されたままである。
- 符号活性化関数は、勾配が利用できない状況下でもスパarsityを強制し、耐性を向上させるために用いられる。
実験結果
リサーチクエスチョン
- RQ1トレーニングなしで、ランダムな深度方向符号付き畳み込みネットワークが、判別可能な特徴表現を生成できるか?
- RQ2このランダムネットワークの性能は、VGG16、ResNet18、DenseNet40のようなファインチューニング済みモデルと比べてどうか?
- RQ3提案手法は、小規模(CIFAR10)および大規模(mini-ImageNet)なベンチマークの両方で競争力のある精度を達成できるか?
- RQ4検索タスクにおけるこのネットワークの性能は、学習済みネットワークから抽出された特徴と比べてどうか?
- RQ5勾配が存在せず、符号活性化関数が使用されているにもかかわらず、ネットワークは adversarial 攻撃に対して頑健であるか?
主な発見
- 最終層では、入力空間に比べてクラス間とクラス内での画像ピクセル分布類似度の比が高いため、より良いクラス分離が実現されている。
- ランダムネットワークは、CIFAR10および10クラスのmini-ImageNetの両方で、トップ2精度がほぼ90%に達し、学習済みモデルに近い性能を示している。
- STL10ではトップ2精度が85%に達しており、より複雑なデータに対しても優れた一般化性能を示している。
- k-NNを用いたCorel Princeton Image Similarity Benchmarkにおいて、このネットワークの性能は、学習済みネットワークの最終層から抽出された特徴と同等である。
- 勾配が存在せず、符号活性化関数が使用されているにもかかわらず、ブラックボックス攻撃に対してネットワークは依然として頑健である。
- 背景に対する感受性が観察されたが、これはアプリケーションの文脈によっては制限要因にも、利点にもなり得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。