[논문 리뷰] A Privacy-Preserving DNN Pruning and Mobile Acceleration Framework.
이 논문은 실사용자 데이터에 접근하지 않고도 모델를 압축할 수 있도록 합성 데이터를 사용하는 ADMM 기반 반복적 프루닝 기법을 활용한 프라이버시 보장형 DNN 프루닝 및 모바일 가속화 프레임워크를 제안한다. 이는 실사용자 데이터에 노출되지 않으며, 정확도 손실이 거의 없고, TensorFLow-Lite 대비 최대 4.2배, TVM 대비 2.5배, MNN 대비 2.0배의 가속 성능 향상을 달성하여 모바일 디바이스에서 효율적이고 프라이버시를 보장하는 추론을 가능하게 한다.
Weight pruning of deep neural networks (DNNs) has been proposed to satisfy the limited storage and computing capability of mobile edge devices. However, previous pruning methods mainly focus on reducing the model size and/or improving performance without considering the privacy of user data. To mitigate this concern, we propose a privacy-preserving-oriented pruning and mobile acceleration framework that does not require the private training dataset. At the algorithm level of the proposed framework, a systematic weight pruning technique based on the alternating direction method of multipliers (ADMM) is designed to iteratively solve the pattern-based pruning problem for each layer with randomly generated synthetic data. In addition, corresponding optimizations at the compiler level are leveraged for inference accelerations on devices. With the proposed framework, users could avoid the time-consuming pruning process for non-experts and directly benefit from compressed models. Experimental results show that the proposed framework outperforms three state-of-art end-to-end DNN frameworks, i.e., TensorFlow-Lite, TVM, and MNN, with speedup up to 4.2X, 2.5X, and 2.0X, respectively, with almost no accuracy loss, while preserving data privacy.
연구 동기 및 목표
- 기존 DNN 프루닝 기법이 사전 학습 데이터 세트에 대한 접근이 필요로 하는 점을 감안해 프라이버시 보호가 부족한 문제를 해결하기 위해.
- 실제 사용자 데이터 폭로 없이도 이동형 엣지 디바이스에서 효율적인 모델 압축 및 추론 가속을 가능하게 하기 위해.
- 전문가의 개입 없이도 시간이 오래 걸리는 수동 프루닝이 필요로 하지 않는 사용자 우월한 프레임워크를 개발하기 위해.
- 프루닝 후에도 정확도를 유지하면서 이동형 디바이스에서 높은 추론 가속 성능을 달성하기 위해.
제안 방법
- 프레임워크는 각 레이어별로 무작위로 생성된 합성 데이터를 사용하여 실제 학습 데이터 대신 패턴 기반 프루닝 문제를 반복적으로 해결하는 ADMM 기반 가중치 프루닝 기법을 활용한다.
- 합성 데이터를 사용해 DNN을 학습하고 프루닝함으로써 프로세스 동안 개인 정보가 포함된 사용자 데이터가 노출되지 않도록 보장한다.
- 레이어별 프루닝과 교차 최적화를 통합하여 압축 과정 중에도 모델 정확도를 유지한다.
- 프루닝 후 이동형 디바이스에서 추론을 가속하기 위해 컴파일러 수준 최적화를 적용한다.
- 엔드 투 엔드로 설계되어 전문가의 간섭 없이도 압축된 모델을 직접 배포할 수 있도록 한다.
실험 결과
연구 질문
- RQ1실제 사전 학습 데이터에 접근하지 않고도 정확도를 유지하면서 DNN 프루닝을 효과적으로 수행할 수 있는가?
- RQ2합성 데이터를 사용하는 ADMM 기반 프루닝은 기존 프루닝 프레임워크와 비교해 추론 속도 및 정확도 측면에서 어떻게 성능을 내는가?
- RQ3컴파일러 수준 최적화는 프루닝 이후 이동형 디바이스에서 추론 성능 향상에 얼마나 기여하는가?
- RQ4제안된 프레임워크는 수동 튜닝이나 오랜 재학습이 필요 없이 비전문가가 사용할 수 있는가?
주요 결과
- 제안된 프레임워크는 이동형 디바이스에서 추론 성능 향상에 대해 TensorFLow-Lite 대비 최대 4.2배, TVM 대비 2.5배, MNN 대비 2.0배의 가속 성능 향상을 달성한다.
- 모델 평가 전반에서 근사적으로 정확도 손실이 거의 없음을 입증하여 강력한 일반화 능력과 견고성을 보여준다.
- 합성 데이터를 사용함으로써 사용자 데이터의 프라이버시를 보장하면서도 모델 압축 및 추론 효율성에 영향을 주지 않는다.
- ADMM 기반 프루닝과 컴파일러 수준 최적화의 통합은 이동형 엣지 디바이스에서의 효율적 배포를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.