Skip to main content
QUICK REVIEW

[논문 리뷰] The Lottery Ticket Hypothesis for Pre-trained BERT Networks

Tianlong Chen, Jonathan Frankle|arXiv (Cornell University)|2020. 07. 23.
Topic Modeling참고 문헌 47인용 수 36
한 줄 요약

이 논문은 사소하지 않은 희소도(40–90%)에서 사전 학습된 BERT에 희소하고 학습 가능한 서브네트워크가 존재하고, 사전 학습 초기화에서 발견된 일부 서브네트워크가 하류 작업에서 전체 정확도로 학습될 수 있으며, MLM에서의 보편적 서브네트워크가 여러 작업으로의 전이성을 가진다는 것을 보여준다.

ABSTRACT

In natural language processing (NLP), enormous pre-trained models like BERT have become the standard starting point for training on a range of downstream tasks, and similar trends are emerging in other areas of deep learning. In parallel, work on the lottery ticket hypothesis has shown that models for NLP and computer vision contain smaller matching subnetworks capable of training in isolation to full accuracy and transferring to other tasks. In this work, we combine these observations to assess whether such trainable, transferrable subnetworks exist in pre-trained BERT models. For a range of downstream tasks, we indeed find matching subnetworks at 40% to 90% sparsity. We find these subnetworks at (pre-trained) initialization, a deviation from prior NLP research where they emerge only after some amount of training. Subnetworks found on the masked language modeling task (the same task used to pre-train the model) transfer universally; those found on other tasks transfer in a limited fashion if at all. As large-scale pre-training becomes an increasingly central paradigm in deep learning, our results demonstrate that the main lottery ticket observations remain relevant in this context. Codes available at https://github.com/VITA-Group/BERT-Tickets.

연구 동기 및 목표

  • 사전 학습된 BERT 모델에서 하류 NLP 작업에 대해 일치하는 서브네트워크( lottery tickets )가 존재하는지 평가한다.
  • 이 서브네트워크가 사전 학습 초기화 및/또는 초기 학습 동안 발견될 수 있는지 판단한다.
  • 발견된 서브네트워크의 서로 다른 하류 작업 간 전이 가능성을 평가한다.
  • 보편적 서브네트워크가 다수의 작업으로 손실 없이 전이되는지 식별한다.

제안 방법

  • 사전 학습된 BERT base가 theta_0로 초기화된 상태에서 희소 서브네트워크를 식별하기 위해 반복적 크기 기반 가지치기(IMP)를 사용한다.
  • 대상 희소성까지 전역적으로 가중치를 가지치고 지정된 학습 스텝 i(포함 i=0)로 rewind한다.
  • 하류 작업에서 서브네트워크를 학습하고 비가지치기된 BERT의 성능과 비교하여 서브네트워크를 평가한다.
  • 가지치기 마스크의 중요성과 초기화를 확립하기 위해 IMP 서브네트워크를 무작위 가지치기 및 무작위 재초기화된 서브네트워크와 비교한다.
  • 하류 작업 간의 전이 가능성과 보편성을 테스트하기 위해 MLM에서 파생된 서브네트워크를 가지치고 다수의 작업에서 평가한다.

실험 결과

연구 질문

  • RQ1사전 학습 theta_0에서 초기화될 때 40%–90%의 비트로 가지치면 BERT에서 일치하는 서브네트워크가 존재하는가?
  • RQ2이러한 서브네트워크가 다른 하류 작업으로 전이되며 광범위하게 전이되는 보편적 서브네트워크가 있는가?
  • RQ3중간 학습 상태로 rewind하는 것이 서브네트워크의 성능이나 전이 가능성을 향상시키는가?
  • RQ4MLM 사전 학습에서 파생된 서브네트워크와 다른 하류 작업에서 파생된 서브네트워크의 전이 성능은 어떻게 비교되는가?

주요 결과

  • 사전 학습 초기화에서 가지치기된 상태로 GLUE 작업과 SQuAD에서 40%–90% sparsity에서 일치하는 서브네트워크가 존재한다.
  • MLM 전이에서 발견된 서브네트워크는 다른 작업에 보편적으로 전이되지만, 다른 작업에서 파생된 서브네트워크는 제한적으로만 전이된다.
  • 중간 학습 스텝으로의 rewind는 성능을 현저하게 향상시키지 못하며 일부 작업에서 오히려 악화될 수 있다.
  • MLM에서 70% sparsity로 가지치면 다수의 작업에서 보편적 전이가 나타난다.
  • MLM에서 파생된 서브네트워크가 최상의 전이 성능을 달성하며 대상 작업에서 종종 거의 같은 작업 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.