QUICK REVIEW

[논문 리뷰] Reweighted Proximal Pruning for Large-Scale Language Representation

Fu-Ming Guo, Sijia Liu|arXiv (Cornell University)|2019. 09. 27.

Topic Modeling참고 문헌 37인용 수 45

한 줄 요약

이 논문은 Reweighted Proximal Pruning (RPP)을 도입하여 BERT에서 최대 59.3% 가중치 희소성을 달성하고 사전 학습에 미미한 영향과 많은 다운스트림 작업에서 우수한 성능을 보여주는 가지치기 방법으로, 특히 높은 가지치기 비율에서 기초 증가적 가지치기 접근법(NIP)을 능가합니다.

ABSTRACT

Recently, pre-trained language representation flourishes as the mainstay of the natural language understanding community, e.g., BERT. These pre-trained language representations can create state-of-the-art results on a wide range of downstream tasks. Along with continuous significant performance improvement, the size and complexity of these pre-trained neural models continue to increase rapidly. Is it possible to compress these large-scale language representation models? How will the pruned language representation affect the downstream multi-task transfer learning objectives? In this paper, we propose Reweighted Proximal Pruning (RPP), a new pruning method specifically designed for a large-scale language representation model. Through experiments on SQuAD and the GLUE benchmark suite, we show that proximal pruned BERT keeps high accuracy for both the pre-training task and the downstream multiple fine-tuning tasks at high prune ratio. RPP provides a new perspective to help us analyze what large-scale language representation might learn. Additionally, RPP makes it possible to deploy a large state-of-the-art language representation model such as BERT on a series of distinct devices (e.g., online servers, mobile phones, and edge devices).

연구 동기 및 목표

대규모 사전 학습 언어 표현(예: BERT)의 전달 학습 성능을 해치지 않으면서 압축을 동기화하고 가능하게 한다.
가지치기된 사전 학습 모델에서 시작할 때 다운스트림 다중 태스크 전달 학습 목표를 보존하는 가지치기 방법을 개발한다.
가지치기 하에서 트랜스포머 기반 언어 모델의 희소성 패턴과 그것의 해석 가능성에 대해 조사한다.
가지치기 비율과 성능 간의 트레이드오프를 사전 학습 및 미세 조정 태스크 전반에 걸쳐 실증적으로 제시한다.

제안 방법

희소성 패턴 탐색을 그래디언트 기반 업데이트와 분리하기 위해 근사 연산자(Proximal Operator)와 결합된 Reweighted L1 최소화를 도입한다.
재가중 계수 alpha_i가 alpha_i = 1/(|w_i| + epsilon)로 업데이트되면서 f0(w) + gamma sum_i alpha_i |w_i|를 가지치기 패 penalized objective를 반복적으로 해결한다.
재가중 L1 항을 고려하여 가중치(w)를 업데이트하는 닫힌 형태의 proximal 연산자를 사용해 희소 패턴 탐지를 효율적으로 수행하고 가지치기 페널티를 역전파하지 않는다.
해당 분리된 가중치 정규화를 지향하고 일반화를 개선하기 위해 AdamW 옵티마이저를 채택한다.
RPP를 New Iterative Pruning (NIP) 베이스라인과 비교하고 MLM/NSP 사전 학습 및 다수의 GLUE/SQuAD 태스크에서의 성능을 보고한다.

실험 결과

연구 질문

RQ1큰 사전 학습된 언어 표현(BERT 등)을 가중치 수준에서 효과적으로 가지치기해도 다운스트림 전달 학습 성능에 해를 끼치지 않는가?
RQ2사전 학습 모델의 가지치기 비율이 다운스트림 태스크의 성능에 어떤 영향을 미치는가?
RQ3재가중 근사 가지치기 하에서 트랜스포머 블록에서 어떤 희소성 패턴이 나타나며 그것의 어휘/어텐션 해석은 무엇인가?

주요 결과

RPP는 보고된 설정에서 사전 학습이나 파인튜닝 성능을 해치지 않으면서 BERT에서 59.3%의 가중치 희소성을 달성한다.
90% 가지치기에서 RPP로 NSP 정확도는 95% 이상으로 견고하게 유지되며 NIP에서는 약 90% 수준이다.
SQuAD 1.1에서 RPP는 41.2% 가지치기에서 F1 88.5를 유지(0 감소)하고 80% 가지치기에서 F1 84.7을 유지(3.8 감소)하며, 유사한 가지치기 수준에서 더 큰 감소를 보이는 NIP보다 우수하다.
BERT-LARGE의 경우 59.3% 가지치기에서 SQuAD1.1 및 GLUE에서 경쟁력 있는 결과를 보여주며 일부 태스크에서 NIP베이스라인 대비 +1.3의 CoLA 향상 등이 나타나고 더 높은 가지치기 수준에서도 강력한 성능을 유지한다(예: 보고된 행에서 88.4%에서 88.4의 경우).
RPP는 트랜스포머 블록 내 Q와 K 매트릭스에서 구조적 희소성 패턴(열 방향의 Q의 희소성과 행 방향의 K의 희소성)을 발견하고 임베딩의 의미론적 구조가 유지됨을 t-SNE 시각화로 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.