QUICK REVIEW

[論文レビュー] One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers

Ari S. Morcos, Haonan Yu|arXiv (Cornell University)|Jun 6, 2019

Generative Adversarial Networks and Image Synthesis参考文献 33被引用数 107

ひとこと要約

この論文は、勝ちチケット初期化が1つのデータセットや最適化アルゴリズムで見つかった場合でも、自然画像タスクで他のデータセットや最適化アルゴリズムに転移することが多い、特に大規模データセット由来の場合を示している。

ABSTRACT

The success of lottery ticket initializations (Frankle and Carbin, 2019) suggests that small, sparsified networks can be trained so long as the network is initialized appropriately. Unfortunately, finding these "winning ticket" initializations is computationally expensive. One potential solution is to reuse the same winning tickets across a variety of datasets and optimizers. However, the generality of winning ticket initializations remains unclear. Here, we attempt to answer this question by generating winning tickets for one training configuration (optimizer and dataset) and evaluating their performance on another configuration. Perhaps surprisingly, we found that, within the natural images domain, winning ticket initializations generalized across a variety of datasets, including Fashion MNIST, SVHN, CIFAR-10/100, ImageNet, and Places365, often achieving performance close to that of winning tickets generated on the same dataset. Moreover, winning tickets generated using larger datasets consistently transferred better than those generated using smaller datasets. We also found that winning ticket initializations generalize across optimizers with high performance. These results suggest that winning ticket initializations generated by sufficiently large datasets contain inductive biases generic to neural networks more broadly which improve training across many settings and provide hope for the development of better initialization methods.

研究の動機と目的

自然画像領域内で、勝ちチケット初期化がデータセット間で一般化するかを調査する。
勝ちチケットのクロスオプティマイザ転移可能性を評価する。
データセットの規模とクラス数が、タスク間での勝ちチケットの一般化にどのように影響するかを検討する。

提案手法

各イテレーションで20%のプルーニング率を用いた反復的マグニチュードプリーニングと、初期値への遅延リセットを行う。
グローバルプルーニングとレイヤー単位プルーニングを比較し、グローバルプルーニングが優れていると結論づける。
ソースデータセット/オプティマイザで生成された勝ちチケットをターゲットデータセット/オプティマイザへ転送し、性能を評価する。
出力クラスの違いのため転送時には最終分類層を除外し、ランダムに再初期化する。

実験結果

リサーチクエスチョン

RQ1自然画像分類タスク内でデータセット間の勝ちチケットが転移しますか？
RQ2勝ちチケットは最適化手法間（モーメンタム付きSGD と Adam）の転移が可能ですか？
RQ3出所データセットの規模とクラス数は転移効果に影響しますか？

主な発見

データセット間で転送された勝ちチケットは、多くのターゲットデータセットにおいてデータセット特有の勝ちチケットとほぼ同等の性能を示します。
より大規模なデータセットで生成された勝ちチケットは、より小規模データセット由来のものより一般化性能が高い。
転送されたチケットは最適化手法を超えて一般化し、オプティマイザに依存しない帰納バイアスを示唆する。
グローバルマグニチュード・プリーニングはレイヤーごとプリーニングより優れており、初期層を保持しつつ深い層をより積極的に剪定する傾向がある。
転送されたチケットは過学習を抑制し得る、特に非常に小さなデータセットで。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。