Skip to main content
QUICK REVIEW

[논문 리뷰] Reweighted Proximal Pruning for Large-Scale Language Representation

Fu-Ming Guo, Sijia Liu|arXiv (Cornell University)|2019. 09. 27.
Topic Modeling참고 문헌 37인용 수 45
한 줄 요약

이 논문은 Reweighted Proximal Pruning (RPP)을 도입하여 BERT에서 최대 59.3% 가중치 희소성을 달성하고 사전 학습에 미미한 영향과 많은 다운스트림 작업에서 우수한 성능을 보여주는 가지치기 방법으로, 특히 높은 가지치기 비율에서 기초 증가적 가지치기 접근법(NIP)을 능가합니다.

ABSTRACT

Recently, pre-trained language representation flourishes as the mainstay of the natural language understanding community, e.g., BERT. These pre-trained language representations can create state-of-the-art results on a wide range of downstream tasks. Along with continuous significant performance improvement, the size and complexity of these pre-trained neural models continue to increase rapidly. Is it possible to compress these large-scale language representation models? How will the pruned language representation affect the downstream multi-task transfer learning objectives? In this paper, we propose Reweighted Proximal Pruning (RPP), a new pruning method specifically designed for a large-scale language representation model. Through experiments on SQuAD and the GLUE benchmark suite, we show that proximal pruned BERT keeps high accuracy for both the pre-training task and the downstream multiple fine-tuning tasks at high prune ratio. RPP provides a new perspective to help us analyze what large-scale language representation might learn. Additionally, RPP makes it possible to deploy a large state-of-the-art language representation model such as BERT on a series of distinct devices (e.g., online servers, mobile phones, and edge devices).

연구 동기 및 목표

  • 대규모 사전 학습 언어 표현(예: BERT)의 전달 학습 성능을 해치지 않으면서 압축을 동기화하고 가능하게 한다.
  • 가지치기된 사전 학습 모델에서 시작할 때 다운스트림 다중 태스크 전달 학습 목표를 보존하는 가지치기 방법을 개발한다.
  • 가지치기 하에서 트랜스포머 기반 언어 모델의 희소성 패턴과 그것의 해석 가능성에 대해 조사한다.
  • 가지치기 비율과 성능 간의 트레이드오프를 사전 학습 및 미세 조정 태스크 전반에 걸쳐 실증적으로 제시한다.

제안 방법

  • 희소성 패턴 탐색을 그래디언트 기반 업데이트와 분리하기 위해 근사 연산자(Proximal Operator)와 결합된 Reweighted L1 최소화를 도입한다.
  • 재가중 계수 alpha_i가 alpha_i = 1/(|w_i| + epsilon)로 업데이트되면서 f0(w) + gamma sum_i alpha_i |w_i|를 가지치기 패 penalized objective를 반복적으로 해결한다.
  • 재가중 L1 항을 고려하여 가중치(w)를 업데이트하는 닫힌 형태의 proximal 연산자를 사용해 희소 패턴 탐지를 효율적으로 수행하고 가지치기 페널티를 역전파하지 않는다.
  • 해당 분리된 가중치 정규화를 지향하고 일반화를 개선하기 위해 AdamW 옵티마이저를 채택한다.
  • RPP를 New Iterative Pruning (NIP) 베이스라인과 비교하고 MLM/NSP 사전 학습 및 다수의 GLUE/SQuAD 태스크에서의 성능을 보고한다.

실험 결과

연구 질문

  • RQ1큰 사전 학습된 언어 표현(BERT 등)을 가중치 수준에서 효과적으로 가지치기해도 다운스트림 전달 학습 성능에 해를 끼치지 않는가?
  • RQ2사전 학습 모델의 가지치기 비율이 다운스트림 태스크의 성능에 어떤 영향을 미치는가?
  • RQ3재가중 근사 가지치기 하에서 트랜스포머 블록에서 어떤 희소성 패턴이 나타나며 그것의 어휘/어텐션 해석은 무엇인가?

주요 결과

  • RPP는 보고된 설정에서 사전 학습이나 파인튜닝 성능을 해치지 않으면서 BERT에서 59.3%의 가중치 희소성을 달성한다.
  • 90% 가지치기에서 RPP로 NSP 정확도는 95% 이상으로 견고하게 유지되며 NIP에서는 약 90% 수준이다.
  • SQuAD 1.1에서 RPP는 41.2% 가지치기에서 F1 88.5를 유지(0 감소)하고 80% 가지치기에서 F1 84.7을 유지(3.8 감소)하며, 유사한 가지치기 수준에서 더 큰 감소를 보이는 NIP보다 우수하다.
  • BERT-LARGE의 경우 59.3% 가지치기에서 SQuAD1.1 및 GLUE에서 경쟁력 있는 결과를 보여주며 일부 태스크에서 NIP베이스라인 대비 +1.3의 CoLA 향상 등이 나타나고 더 높은 가지치기 수준에서도 강력한 성능을 유지한다(예: 보고된 행에서 88.4%에서 88.4의 경우).
  • RPP는 트랜스포머 블록 내 Q와 K 매트릭스에서 구조적 희소성 패턴(열 방향의 Q의 희소성과 행 방향의 K의 희소성)을 발견하고 임베딩의 의미론적 구조가 유지됨을 t-SNE 시각화로 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.