Skip to main content
QUICK REVIEW

[논문 리뷰] Systematic Weight Pruning of DNNs using Alternating Direction Method of Multipliers

Tianyun Zhang, Shaokai Ye|arXiv (Cornell University)|2018. 02. 15.
Advanced Neural Network Applications참고 문헌 8인용 수 23
한 줄 요약

이 논문은 각 레이어의 가중치에 카디널리티 제약 조건을 가진 제약 조건이 있는 비볼록 최적화 문제를 해결하기 위해 보조 변수와 지표 함수를 사용하여 ADMM(교차 방향 다중 승수 방법)를 사용하는 체계적인 가중치 프루닝 프레임워크를 제안한다. 이 방법은 기존의 반복적 재학습 방법보다 더 빠르게 수렴하면서도 원래 테스트 정확도를 유지하면서 LeNet-5에서 최대 40.2×의 압축 비율을 달성하여 높은 압축 성능을 보이며, 재현 가능성을 위해 모델들이 공개되어 있다.

ABSTRACT

We present a systematic weight pruning framework of deep neural networks (DNNs) using the alternating direction method of multipliers (ADMM). We first formulate the weight pruning problem of DNNs as a constrained nonconvex optimization problem, and then adopt the ADMM framework for systematic weight pruning. We show that ADMM is highly suitable for weight pruning due to the computational efficiency it offers. We achieve a much higher compression ratio compared with prior work while maintaining the same test accuracy, together with a faster convergence rate. Our models are released at https://github.com/KaiqiZhang/admm-pruning

연구 동기 및 목표

  • 이론적 보장이 없고 시간이 오래 걸리는 재학습이 필요한 히우리스틱이고 반복적인 가중치 프루닝 방법의 한계를 해결하기 위해.
  • DNN 가중치 프루닝을 각 레이어의 가중치에 명시적인 카디널리티 제약 조건을 가진 제약 조건이 있는 비볼록 최적화 문제로 공식화하기 위해.
  • ADMM의 계산 효율성과 수렴 성질을 활용하여 이론적 기반을 가진 체계적이고 고압축 프루닝을 수행하기 위해.
  • 기존 작업보다 더 높은 모델 압축 비율을 달성하면서도 테스트 정확도를 유지하기 위해.
  • 연구 공동체에서 재현성과 벤치마킹을 위해 훈련된 모델을 공개하기 위해.

제안 방법

  • 각 레이어의 가중치에 카디널리티 제약 조건을 가진 손실 함수 최소화 문제로 DNN 가중치 프루닝을 공식화하기 위해.
  • 보조 변수와 지표 함수를 사용하여 문제를 ADMM 형태로 재구성하여 희박성 제약 조건을 표현하기 위해.
  • 기존 가중치에 대한 경사하강법 최적화와 희박한 타당 집합 위로의 투영을 번갈아 적용하기 위해.
  • 투영 단계에서 절댓값이 가장 큰 l_i개 이외의 모든 가중치를 0으로 명시적으로 설정하여 직접적으로 희박성 강제하기 위해.
  • 스케일된 이중 변수에 대한 이중 상승 업데이트를 사용하여 기존 변수와 보조 변수 간의 일치를 강제하기 위해.
  • ADMM 수렴 후, 작은 크기의 가중치를 프루닝하고 프루닝된 네트워크를 재학습하여 정확도를 복원하기 위해.

실험 결과

연구 질문

  • RQ1ADMM는 DNN의 구조적 가중치 프루닝에 하드 희박성 제약 조건을 가진 상태에서 효과적으로 적용될 수 있는가?
  • RQ2ADMM 기반 프루닝은 정확도를 유지하면서도 히우리스틱 반복적 프루닝 방법보다 더 높은 압축 비율을 달성하는가?
  • RQ3ADMM 기반 프루닝의 수렴 속도는 반복적 재학습 기반 프루닝보다 어떻게 비교되는가?
  • RQ4ADMM 프루닝은 합성곱층과 완전 연결층에서 계산량과 모델 크기에 어떤 영향을 미치는가?
  • RQ5ADMM 기반 프루닝은 일관된 성능 향상을 보이며 다양한 DNN 아키텍처에 체계적으로 적용될 수 있는가?

주요 결과

  • ADMM 기반 프루닝 방법은 정확도 손실 없이 LeNet-300-100 네트워크에서 파라미터 수를 22.9× 감소시켰다.
  • LeNet-5에서 이 방법은 40.2×의 압축 비율을 달성했으며, Han 등(2015)에서 보고한 12× 감소보다 뚜렷이 뛰어났다.
  • LeNet-5의 합성곱층에서 가중치 수를 10× 감소시켰으며, 이는 이전 작업의 8× 감소를 초월했다.
  • ADMM는 약 20회 반복 내에 수렴했으며, 전체 계산 시간은 원본 네트워크를 두 번 훈련하는 데 걸리는 시간과 유사했다.
  • 최종적으로 프루닝된 모델들은 재학습 후 원본 네트워크와 동일한 테스트 정확도를 유지했다.
  • 이 프레임워크는 히우리스틱 반복적 방법보다 더 빠른 수렴 속도와 더 높은 희박성으로 체계적이고 고압축 프루닝을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.