QUICK REVIEW

[논문 리뷰] Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask

Hattie Zhou, Janice Lan|arXiv (Cornell University)|2019. 05. 03.

Advanced Neural Network Applications참고 문헌 22인용 수 107

한 줄 요약

이 논문은 Lottery Ticket(LT) 프레임워크를 부분적으로 제거하여 마스크 기준, 마스크-1 부호 처리, 마스크-0 고정이 LT 성능에 모두 영향을 준다는 것을 보이고, 강력한 성능을 발휘하는 비훈련 마스크인 Supermasks를 도입한다.

ABSTRACT

The recent "Lottery Ticket Hypothesis" paper by Frankle & Carbin showed that a simple approach to creating sparse networks (keeping the large weights) results in models that are trainable from scratch, but only when starting from the same initial weights. The performance of these networks often exceeds the performance of the non-sparse base model, but for reasons that were not well understood. In this paper we study the three critical components of the Lottery Ticket (LT) algorithm, showing that each may be varied significantly without impacting the overall results. Ablating these factors leads to new insights for why LT networks perform as well as they do. We show why setting weights to zero is important, how signs are all you need to make the reinitialized network train, and why masking behaves like training. Finally, we discover the existence of Supermasks, masks that can be applied to an untrained, randomly initialized network to produce a model with performance far better than chance (86% on MNIST, 41% on CIFAR-10).

연구 동기 및 목표

LT 구성요소의 변형(마스크 기준, 마스크-1 동작, 마스크-0 동작)이 prune-train 동역학에 미치는 영향을 평가한다.
제로링(zeroing)과 프리징(freezing) 중 어떤 방식이 LT 성능을 좌우하는지 식별한다.
마스킹 연산이 암시적 학습 과정으로 작용하는지, 비훈련 마스크가 기대치를 넘는 성능(Supermasks)을 달성할 수 있는지 확인한다.
초기 가중치의 부호가 중요한지 여부와 가중치 크기가 LT 서브네트워크에 미치는 영향을 평가한다.

제안 방법

마스크를 함수 M(w_i, w_f)로 정의하고 다섯 가지를 넘는 아홉 가지 마스크 기준을 탐색한다(예: large_final, magnitude_increase, movement 등).
LT 프레임워크를 사용하여 MNIST(FC) 및 CIFAR-10(Conv2, Conv4, Conv6)에 대해 반복적 가지치기(pruning) 수행
부호의 역할을 탐색하기 위해 마스크-1 동작을 초기 값으로 되감기(rewind), 재배열(shuffling) 또는 상수를 사용하여 평가한다.
마스크-0 동작을 평가하기 위해 0으로 가중치를 고정하거나, 초기화 시점에 고정하거나, 규모 변화(magnitude changes)와 연동된 조건부 제로링을 사용한다.
비훈련 네트워크에 마스크를 적용하고 성능을 측정하는 방식으로 Supermasks를 실험한다.
동적 가중치 재스케일링(DWR)을 적용하고 바이너리 마스크 값으로의 베르누이 게이팅 매핑을 학습하여 Supermasks를 최적화한다.

실험 결과

연구 질문

RQ1다양한 마스크 기준 M(w_i, w_f)이 구조와 가지치기 비율에 따라 LT 성능에 어떤 영향을 미치는가?
RQ2처음 가중치의 부호를 보존하는 것이 재초기화된 유지 가중치의 경우 LT 학습 가능성의 결정적 요인인가?
RQ3제로로 설정된 가지치기 가중치와 초기화 시점에 고정된 가지치기 가중치가 다르게 기여하는가, 그리고 마스킹을 학습으로 간주할 수 있는가?
RQ4비훈련 네트워크에 적용된 마스크가 기대치를 넘는 성능(Supermasks)을 낼 수 있는가, 학습된 마스크가 전체 네트워크 정확도에 근접할 수 있는가?
RQ5동적 가중치 재스케일링(DWR)이 Supermask 성능을 향상시키고 마스크된 네트워크를 완전하게 학습된 네트워크에 더 가깝게 만들 수 있는가?

주요 결과

다수의 마스크 기준(반드시 large_final뿐 아니라)도 LT 성능에 도달하거나 이를 능가할 수 있으며, magnitude_increase와 large_final이 여러 네트에서 최상의 성능을 보인다.
유지된 가중치의 부호를 보존하는 것이 재초기화 변형에서도 LT 학습 가능성에 결정적으로 작용하며, 부호를 유지하면 rewinding에 근접한 성능을 얻을 수 있다.
가지치기된 가중치를 0으로 제로링하는 것이 중요하며, 0에서 고정하는 것이 초기화 시점에서 고정하는 것보다 더 나은 성능을 보이며, 크기 변화와 연동된 조건부 제로링 규칙은 결과를 개선한다.
마스킹은 학습 연산으로 작동하는 경향이 있으며, 가지치기된 가중치는 0으로 향하는 움직임을 통해 기여한다; 마스크가 0으로 설정된 가중치는 성능에 이점이 있다.
Supermasks가 존재한다: 신중하게 선택된 마스크를 가진 비훈련 네트워크가 MNIST에서 확률치 대비 성능을 능가할 수 있으며(약 40%까지), CIFAR-10에서도 약 24%까지 가능하다.
학습된 마스크와 동적 가중치 재스케일링(DWR)은 여러 데이터셋에서 거의 전체 네트워크 수준의 성능을 달성하게 한다(예: MNIST FC 약 97.7% 테스트 정확도; CIFAR-10 Conv6 약 78.3%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.