QUICK REVIEW

[논문 리뷰] Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning

Elias Frantar, Singh, Sidak Pal|arXiv (Cornell University)|2022. 08. 24.

Medical Imaging Techniques and Applications인용 수 36

한 줄 요약

최적 뇌 압축기(OBC)를 소개합니다. 이는 한 번의 후훈련(post-training) 가지치기 및 양자화를 위한 통합적이고 정확한 OBS 기반 프레임워크로, 압축 시 정확도를 향상시키고 가지치기-양자화를 공동으로 지원합니다.

ABSTRACT

We consider the problem of model compression for deep neural networks (DNNs) in the challenging one-shot/post-training setting, in which we are given an accurate trained model, and must compress it without any retraining, based only on a small amount of calibration input data. This problem has become popular in view of the emerging software and hardware support for executing models compressed via pruning and/or quantization with speedup, and well-performing solutions have been proposed independently for both compression approaches. In this paper, we introduce a new compression framework which covers both weight pruning and quantization in a unified setting, is time- and space-efficient, and considerably improves upon the practical performance of existing post-training methods. At the technical level, our approach is based on an exact and efficient realization of the classical Optimal Brain Surgeon (OBS) framework of [LeCun, Denker, and Solla, 1990] extended to also cover weight quantization at the scale of modern DNNs. From the practical perspective, our experimental results show that it can improve significantly upon the compression-accuracy trade-offs of existing post-training methods, and that it can enable the accurate compound application of both pruning and quantization in a post-training setting.

연구 동기 및 목표

훈련된 DNN을 한 번의 후훈련 설정에서 제한된 보정 데이터로 압축하는 과제를 다룬다.
가지치기와 양자화를 모두 효율적이고 정확하게 처리하는 통합 프레임워크를 개발한다.
현대 네트워크에 실용적인 시간 및 공간 효율성을 가진 정확한 OBS 기반 방법을 제공한다.
최소한의 정확도 손실로 높은 속도 향상을 달성하기 위해 가지치기와 양자화를 복합적으로 수행한다.

제안 방법

계층별 압축을 압축 제약 조건 하에서 계층 출력 변화 최소화로 공식화한다.
제곱 오차 계층별 손실에 맞추어 최적 뇌 살인자(OBS) 프레임워크를 적용하여 정확한 탐욕적 가지치기 알고리즘을 얻는다.
row-wise 해시안(Hessian) 처리 및 행/열 제거 업데이트를 통해 O(d_row * d_col^2) 시간과 O(d_col^2) 메모리로 한 번에 하나의 가중치를 가지치기하는 ExactOBS를 개발한다.
가중치 양자화를 OBS에 확장하여 양자화의 영향을 기반으로 양자화할 가중치를 선택하고 남은 가중치에 닫힌 형식의 업데이트를 적용하는 Optimal Brain Quantizer(OBQ)를 만든다.
가지치기와 양자화를 통합한 Optimal Brain Compressor(OBC)를 구현하고, N:M 및 블록 희소성과 그룹 업데이트를 선택적으로 적용할 수 있는 실용적 확장을 제시한다.
재현성을 위한 효율적이고 정확한 구현과 공개 저장소를 제공한다.

실험 결과

연구 질문

RQ1단일의 정확한 OBS 기반 프레임워크가 가지치기와 양자화 모두에 대해 후훈련 설정에서 효과적으로 적용될 수 있는가?
RQ2레이어별 단일 스텝 압축 방식이 재훈련 없이 실용적 FLOP/지연 제약 하에서 경쟁력 있는 정확도를 산출하는가?
RQ3가지치기와 양자화를 결합해 GPU 및 CPU 환경에서 최소한의 정확도 손실로 더 큰 속도 향상을 얻을 수 있는가?
RQ4DNN 규모에서 정확한 가지치기와 양자화를 가능하게 하기 위해 2차 정보를 어떻게 효율적으로 계산하고 업데이트할 수 있는가?

주요 결과

ExactOBS 알고리즘은 현대 DNN 규모의 레이어를 단일 GPU에서 가지치기하는 데 필요한 복잡도를 크게 감소시키며 정확한 탐욕적 가지치기 솔루션을 달성한다.
OBS 기반 접근법은 한 번에 하나의 가중치를 반복적으로 양자화하는 방법으로 확장할 수 있으며, Optimal Brain Quantizer(OBQ)를 만들어 가지치기와 통합하는 Optimal Brain Compressor(OBC)와 결합한다.
OBC는 이미지 분류, 객체 검출, 언어 모델링 과제에서 후훈련 가지치기 및 양자화에 대한 최첨단 정확도-압축 트레이드오프를 제공한다.
복합 압축(가지치기-양자화)은 GPU 시나리오에서 이론적 연산을 12배 줄이고 정확도 손실을 2%만 남기는 등의 상당한 속도 향상을 제공하며, CPU 시나리오에서도 런타임 속도가 4배 빨라진다(손실 1%).
레이어별 압축 후 보정 데이터가 있는 경우, 더 비싼 전역 최적화 방법의 결과와 근접하거나 이를 능가하는 후훈련 설정의 결과를 달성할 수 있다.
프레임워크는 비균일 압축 및 N:M, 블록 희소성과 같은 실용적 희소성 패턴을 지원하고 각 레이어의 제약 조건에 DP 기반 레이어별 해석기로 적응할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.