[논문 리뷰] Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP
논문은 로터리티 티켓 가설을 감독 이미지 분류를 넘어 테스트하여, NLP(LSTM 및 Transformer)와 RL(전통 제어 및 Atari)에서 승리 티켓 초기화가 존재함을 보여주고, 작은 모델이 전체 모델 성능에 근접하도록 함.
The lottery ticket hypothesis proposes that over-parameterization of deep neural networks (DNNs) aids training by increasing the probability of a "lucky" sub-network initialization being present rather than by helping the optimization process (Frankle & Carbin, 2019). Intriguingly, this phenomenon suggests that initialization strategies for DNNs can be improved substantially, but the lottery ticket hypothesis has only previously been tested in the context of supervised learning for natural image tasks. Here, we evaluate whether "winning ticket" initializations exist in two different domains: natural language processing (NLP) and reinforcement learning (RL).For NLP, we examined both recurrent LSTM models and large-scale Transformer models (Vaswani et al., 2017). For RL, we analyzed a number of discrete-action space tasks, including both classic control and pixel control. Consistent with workin supervised image classification, we confirm that winning ticket initializations generally outperform parameter-matched random initializations, even at extreme pruning rates for both NLP and RL. Notably, we are able to find winning ticket initializations for Transformers which enable models one-third the size to achieve nearly equivalent performance. Together, these results suggest that the lottery ticket hypothesis is not restricted to supervised learning of natural images, but rather represents a broader phenomenon in DNNs.
연구 동기 및 목표
- 감독 학습 이미지 분류를 넘어 NLP 및 RL 설정에서 승리 티켓 초기화가 존재하는지 평가한다.
- NLP 모델(LSTM 및 Transformer)에서 로터리 티켓을 찾기 위한 반복 가지치기와 지연 리와인딩의 효과를 평가한다.
- RL 과제(클래식 컨트롤 및 Atari)에서 로터리 티켓의 존재와 품질을 평가한다.
- 번역에서 Transformer 모델과 LSTM 언어 모델링에서 희소성이 성능에 미치는 영향을 정량화한다.
- 희소한 초기화에서의 학습이 거의 전체 모델 성능에 근접한 결과를 달성하는 등의 로터리 티켓의 실용적 시사점을 보여준다.
제안 방법
- NLP와 RL에서 희소한 승리 티켓을 찾기 위해 원샷 가지치기 및 반복 가지치기를 적용한다.
- NLP는 p=0.2의 반복 가지치기 비율로 총 20회, RL은 20회의 가지치기 반복에서 전역 크기 기반 가지치기를 사용한다.
- RL의 경우 전체 네트워크 학습의 첫 번째 에포크 이후 승리 티켓을 가중치로 재설정하는 지연 리와인딩을 사용하거나 NLP의 경우 일반 리셋과 비교한다.
- NLP 과제 평가: Wikitext-2의 LSTM 언어 모델링과 WMT’14 En-De의 Transformer 기반 기계 번역에서 혼란도(perplexity)와 BLEU를 보고한다.
- RL 과제 평가: 완전 연결 네트워크를 이용한 클래식 컨트롤과 CNN 기반 정책을 사용하는 Atari 게임에서 평균 보상을 보고한다.
실험 결과
연구 질문
- RQ1NLP와 RL에서 감독 학습 이미지 분류를 넘어 승리 티켓 초기화가 존재하는가?
- RQ2NLP 모델(LSTMs 및 Transformer)과 RL 에이전트에서 희소 서브네트워크의 성능을 반복 가지치기와 지연 리와인딩이 개선하는가?
- RQ3승리 티켓으로 초기화된 희소 서브네트워크가 RL 과제(클래식 컨트롤 및 Atari)에서 밀집 네트워크와 비견될 성능을 달성할 수 있는가?
- RQ4로터리 티켓 프레임워크에서 가지치기가 Transformer 기반 번역과 LSTM 언어 모델링 성능에 어떤 영향을 미치는가?
주요 결과
- 승리 티켓 초기화는 LSTM과 Transformer 모두에서 NLP 과제에서 무작위 티켓보다 우수하며, 높은 가지치율에서도 우수하다.
- 반복 가지치기와 지연 리와인딩은 로터리 티켓 성능을 실질적으로 향상시키며, NLP와 RL에서 반복 가지치기가 지연 리와인딩보다 더 큰 영향을 미친다.
- Transformer Big 모델은 승리 티켓을 갖추면 가중치의 3분의 1만으로도 비가쇄 모델의 BLEU 점수의 99%에 도달할 수 있다.
- RL에서 승리 티켓은 클래식 컨트롤 과제와 많은 Atari 게임에서 무작위 티켓보다 우수하지만 게임에 따라 효과가 다르게 나타난다.
- 트랜스포머 계층 가중치 가지치와 전체 모델 가지치가 서로 다른 강건성을 보이며, 임베딩이 서로 다른 민감도 패턴을 보인다.
- 결과는 로터리 티켓이 도메인 간 일반적인 현상임을 시사하며, 감독 이미지 분류에 국한되지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.