QUICK REVIEW

[논문 리뷰] When BERT Plays the Lottery, All Tickets Are Winning

Sai Prasanna, Anna Rogers|arXiv (Cornell University)|2020. 05. 01.

Topic Modeling참고 문헌 56인용 수 36

한 줄 요약

이 논문은 미세 조정된 BERT에 대한 로또 티켓 가설을 조사하여, 가지치기 하에서 좋은 서브네트워크가 전체 모델의 성능에 맞먹을 수 있음을 보이고, 많은 서브네트워크가 가지치기 이후에도 놀랍게도 학습 가능하다는 점을 보여줍니다. 또한 좋은 서브네트워크는 안정적이지 않으며 명확한 언어 특화성을 반영하지 않을 수 있음을 발견합니다.

ABSTRACT

Large Transformer-based models were shown to be reducible to a smaller number of self-attention heads and layers. We consider this phenomenon from the perspective of the lottery ticket hypothesis, using both structured and magnitude pruning. For fine-tuned BERT, we show that (a) it is possible to find subnetworks achieving performance that is comparable with that of the full model, and (b) similarly-sized subnetworks sampled from the rest of the model perform worse. Strikingly, with structured pruning even the worst possible subnetworks remain highly trainable, indicating that most pre-trained BERT weights are potentially useful. We also study the "good" subnetworks to see if their success can be attributed to superior linguistic knowledge, but find them unstable, and not explained by meaningful self-attention patterns.

연구 동기 및 목표

BERT 미세 조정에 승리 티켓(trainable subnetworks)이 존재하는지 여부를 크기 기반 가지치기로 평가한다.
GLUE 작업 전반에서 BERT self-attention 헤드와 MLP에 대한 크기 기반 가지치기와 구조화된 가지치기를 비교한다.
최고의 서브네트워크가 언어적으로 의미 있는 패턴이나 과제 특이적이고 불안정한지 여부를 결정한다.
'나쁜' 서브네트워크가 강한 성능을 달성하도록 재학습될 수 있는지 평가한다.

제안 방법

9가지 GLUE 작업에서 BERT-base를 소문자화 하여 미세 조정한다.
전체 모델의 dev 성능이 90% 아래로 떨어질 때까지 낮은 규모의 가중치를 10%씩 제거하는 반복적 크기 기반 가지치를 적용한다.
역전파에서 도출된 중요도 점수를 이용해 주의 헤드와 MLP 블록을 마스킹하는 구조화된 가지치를 적용한다.
가지치기 후의 서브네트워크 성능과 사전 학습 가중치로 재 초기화 후 재미세 조정한 후의 성능을 측정한다.
잘려진 서브네트워크를 동일 크기의 무작위 서브네트워크 및 기준 아키텍처와 비교한다.
랜덤 시드 간에 '좋은' 서브네트워크의 안정성을 분석하고 살아남은 헤드의 주의 패턴 분포를 검토한다.

실험 결과

연구 질문

RQ1가지치기 후 BERT 내 서브네트워크가 전체 모델과 비슷한 성능에 도달할 수 있는가?
RQ2크기 기반 가지치기와 구조화된 가지치기가 성능 유지 및 압축 달성에 어떻게 다른가?
RQ3최고의 서브네트워크가 해석 가능한 언어 지식 또는 과제 특이적 휴리스즘과 연관되는가?
RQ4미세 조정 중 서로 다른 무작위 초기화에서 식별된 좋은 서브네트워크는 안정적인가?

주요 결과

두 가지 가지치기 방법에서 나온 좋은 서브네트워크가 GLUE 작업에서 전체 모델 성능의 약 90%에 도달할 수 있다.
구조화된 가지치기가 크기 기반 가지치기보다 더 큰 압축을 자주 이끌지만 두 가지 방법 모두 상당한 성능을 유지한다.
가장 나쁜 서브네트워크조차도 강한 성능으로 미세 조정될 수 있어, 많은 사전 학습 가중치가 넓은 범위에서 유용함을 시사한다.
좋은 서브네트워크는 무작위 시드에 따라 안정적이지 않으며, 개별 주의 헤드의 뚜렷한 언어적 역할과도 일관되게 정렬되지 않는다.
무작위로 선택된 s-pruned 서브네트워크가 여러 과제에서 좋은 서브네트워크와 거의 같은 성능을 보일 수 있어, 많은 가중치가 명확하게 해석 가능한 언어 패턴을 넘어 전이 가능한 유용성을 지님을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.