QUICK REVIEW

[論文レビュー] Pruning Convolutional Neural Networks with Self-Supervision

Mathilde Caron, Ari S. Morcos|arXiv (Cornell University)|Jan 10, 2020

Domain Adaptation and Few-Shot Learning参考文献 43被引用数 31

ひとこと要約

この論文は、標準的な大きさに基づく非構造化プルーニングを、通常は教師あり学習に用いられる手法を、自己教師型タスクで訓練されたネットワークに適用し、プルーニングされた自己教師型サブネットワークが転移性能を維持し、ラベル付きデータで再訓練できることを示している。

ABSTRACT

Convolutional neural networks trained without supervision come close to matching performance with supervised pre-training, but sometimes at the cost of an even higher number of parameters. Extracting subnetworks from these large unsupervised convnets with preserved performance is of particular interest to make them less computationally intensive. Typical pruning methods operate during training on a task while trying to maintain the performance of the pruned network on the same task. However, in self-supervised feature learning, the training objective is agnostic on the representation transferability to downstream tasks. Thus, preserving performance for this objective does not ensure that the pruned subnetwork remains effective for solving downstream tasks. In this work, we investigate the use of standard pruning methods, developed primarily for supervised learning, for networks trained without labels (i.e. on self-supervised tasks). We show that pruned masks obtained with or without labels reach comparable performance when re-trained on labels, suggesting that pruning operates similarly for self-supervised and supervised learning. Interestingly, we also find that pruning preserves the transfer performance of self-supervised subnetwork representations.

研究の動機と目的

教師あり学習のために開発された標準的なプルーニング手法が、自己教師型ネットワークで機能するかを評価する。
自己教師型特徴の転送性が下流タスクへ影響を与えるプルーニングの影響を評価する。
プルーニングされた自己教師型サブネットワークを教師付きタスクで再訓練できるかを調査する。
プルーニング中の部分的な監督（半教師付きプルーニング）を使用した場合のプルーニング結果への影響を検討する。

提案手法

自己教師型タスクで訓練された過剰パラメータ化ネットワークに対して、振幅ベースの非構造化反復プルーニングを適用する。
プルーニングされたサブネットワークを再訓練する際には、重みリセット戦略（winning tickets）またはランダム初期化を用いる。
プルーニングの前処理目的として、RotNetとExemplar（NPDIを追加）という2つの自己教師型タスクを評価する。
線形分類器/ファインチューニングされた分類器を用いて、プルーニングされた表現を下流タスク（VOC07、Places205、ImageNet）に転移させる。
プルーニング中に監督あり、監督なし、および半教師付きプルーニング（部分ラベル）を比較する。
残存ウェイトが20%から99.9%までのプルーニング率にわたる結果を報告する。

実験結果

リサーチクエスチョン

RQ1基盤ネットワークが自己教師型目的で訓練されている場合、標準の教師ありプルーニング手法は有効なサブネットワークを生み出せるか。
RQ2プルーニングされた自己教師型サブネットワークは、ラベル付きでのプルーニングと同程度の下流タスクでの転移性能を保持するか。
RQ3初期化から監督タスクで再訓練可能なプルーニングされたサブネットワークがあるか、また winning tickets はランダム初期化と比較してどうか。
RQ4半教師付きプルーニングは、得られるサブネットワークの質を改善するか。

主な発見

ウェイトの90%までのプルーニング（残りが0.1%未満）の場合でも、VOC07、Places205、ImageNetで線形分類器を用いて評価すると転移性能は低下しない。
ランダムに再初期化した場合、プルーニングされた自己教師型サブネットワークは教師ありプルーニングの性能に匹敵または上回るよう再訓練できるが、winning tickets は自己教師型プルーニングでは有利ではない。
転移前にプルーニングを行う方が、転移中に行うよりもプルーニングしたネットワークの転移性能が良くなる傾向がある。計算資源が限られたユーザー向けに、プルーニング済みの事前学習モデルを公開できる。
自己教師型プルーニングは、監督付きプルーニングと同様のマスク品質を生み出すが、それに対応する winning-ticket 初期化は、ラベル分類から継承される初期化ほど強くない。
半教師付きプルーニング（約10%のラベルデータを使用）は、無監督プルーニングより winning-ticket 初期化と下流の精度を改善し、winning tickets がラベルに依存することを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。