QUICK REVIEW

[논문 리뷰] Enabling Deep Learning on Edge Devices

Zhongnan Qu|arXiv (Cornell University)|2022. 01. 01.

IoT and Edge/Fog Computing인용 수 3

한 줄 요약

이 학위논문은 자원이 제한된 엣지 장치에서 효율적인 딥러닝을 가능하게 하기 위해 모델의 중복을 줄이는 데 초점을 맞춘 네 가지 새로운 방법론을 제안한다. 하위-1비트 추론을 위한 적응형 손실 인식 양자화(Adaptive Loss-aware Quantization, ALQ), 런타임 적응을 위한 동적 실시간 희소 서브넷(Dynamic REal-time Sparse Subnets, DRESS), 메모리 효율적인 현장 내 메타러닝을 위한 p-Meta, 그리고 엣지-서버 시스템에서 통신 효율적인 모델 업데이트를 위한 딥 파트리얼 업데이트(Deep Partial Updating, DPU)를 제안한다. 다양한 엣지 환경에서 최고 수준의 정확도를 달성하면서도 자원 사용을 최소화한다.

ABSTRACT

Deep neural networks (DNNs) have succeeded in many different perception tasks, e.g., computer vision, natural language processing, reinforcement learning, etc. The high-performed DNNs heavily rely on intensive resource consumption. For example, training a DNN requires high dynamic memory, a large-scale dataset, and a large number of computations (a long training time); even inference with a DNN also demands a large amount of static storage, computations (a long inference time), and energy. Therefore, state-of-the-art DNNs are often deployed on a cloud server with a large number of super-computers, a high-bandwidth communication bus, a shared storage infrastructure, and a high power supplement. Recently, some new emerging intelligent applications, e.g., AR/VR, mobile assistants, Internet of Things, require us to deploy DNNs on resource-constrained edge devices. Compare to a cloud server, edge devices often have a rather small amount of resources. To deploy DNNs on edge devices, we need to reduce the size of DNNs, i.e., we target a better trade-off between resource consumption and model accuracy. In this dissertation, we studied four edge intelligence scenarios, i.e., Inference on Edge Devices, Adaptation on Edge Devices, Learning on Edge Devices, and Edge-Server Systems, and developed different methodologies to enable deep learning in each scenario. Since current DNNs are often over-parameterized, our goal is to find and reduce the redundancy of the DNNs in each scenario.

연구 동기 및 목표

제한된 메모리, 계산 능력, 에너지원을 가진 엣지 장치에 고정확도 딥뉴럴넷(DNNs)을 구현하는 데 도전하는 것.
다양한 엣지 시나리오인 추론, 런타임 적응, 현장 내 학습, 엣지-서버 시스템에서 과다 파rameter화된 DNNs의 중복을 줄이는 것.
효율적인 양자화, 희소성, 메타러닝, 부분 모델 업데이트를 통해 정확도와 자원 소비 간의 더 나은 트레이드오프를 달성하는 것.
클라우드 기반 추론과 재학습에 의존하지 않고 현장 내 및 엣지-서버 인식 최적화 기법을 통해 이를 대체하는 것.
모델 성능을 유지하면서 분산 엣지 시스템에서의 통신 및 저장 오버헤드를 최소화하는 것.

제안 방법

직접 손실 최적화와 적응형 비트폭 할당을 활용해 하위-1비트 DNN을 달성하는 Adaptive Loss-aware Quantization(ALQ)를 제안하며, 기존 이진 네트워크보다 높은 정확도를 확보한다.
다양한 희소성 수준을 가진 서브넷 간에 가중치와 아키텍처를 공유함으로써 자원 제약 조건 변화에 따라 동적으로 재구성 가능한 런타임 합성 기법인 Dynamic REal-time Sparse Subnets(DRESS)를 도입한다.
구조적 적응에 핵심적인 가중치만 식별하고 업데이트함으로써 메모리 오버헤드를 줄이는 메타러닝 프레임워크인 p-Meta를 개발한다. 이는 현장 내 소수의 샘플로도 효율적인 피처샷 적응을 가능하게 한다.
서버의 사전 학습된 모델에서 임계적인 가중치만 선택하고 업데이트하는 파이프라인인 Deep Partial Updating(DPU)를 도입하여 통신 비용을 최소화하면서도 정확도를 유지한다.
다양한 희소성 수준의 서브넷을 효율적으로 실행하기 위해 희소 텐서 계산을 활용함으로써 런타임 자원 가용성에 따라 동적으로 적응할 수 있도록 한다.
DRESS에서 가중치 공유와 아키텍처 공유를 활용해 저장 및 재구성 오버헤드를 줄여 동적 엣지 환경에서의 효율성을 향상시킨다.

실험 결과

연구 질문

RQ1자원 제약이 심한 엣지 장치에서 하위-1비트 정밀도로 고정확도 DNN 추론을 달성하면서도 양자화 중복을 최소화할 수 있는 방법은 무엇인가?
RQ2런타임 중 자원 제약(예: RAM, 실행 시간)이 동적으로 변화할 때 엣지 장치에서 DNN의 실시간 적응을 어떻게 구현할 수 있는가?
RQ3소수의 샘플로만 이루어진 새로운 작업에 대해 현장 내에서 메모리 효율적인 메타러닝을 수행하고, 모델 업데이트의 메모리 프로필을 줄일 수 있는 방법은 무엇인가?
RQ4반복적인 모델 업데이트 중에도 정확도를 유지하면서 엣지-서버 시스템에서의 통신 비용을 줄일 수 있는 방법은 무엇인가?
RQ5사전 학습된 DNN에서 임계적인 가중치만 선택하고 업데이트하는 최적의 전략은 무엇인가? 이는 성능 저하 없이 통신 오버헤드를 최소화할 수 있도록 해야 한다.

주요 결과

ALQ는 평균 비트폭이 1비트 이하일 때조차도 기존 최고 수준의 이진 네트워크보다 높은 정확도를 달성하며, 직접 손실 최적화와 적응형 비트폭 할당의 효과를 입증한다.
DRESS는 가중치 및 아키텍처 공유 덕분에 비공유 기법 대비 최대 30% 낮은 저장소 오버헤드와 25% 빠른 재구성 속도를 확보하며, 동적 재구성 기능을 제공한다.
p-Meta는 구조적으로 중요한 가중치에만 업데이트를 집중시음으로써 현장 내 메타러닝 중 메모리 소비를 줄여, 최소한의 메모리 프로필로도 효율적인 피처샷 적응을 가능하게 한다.
DPU는 전체 재학습과 유사한 정확도를 유지하면서도 엣지-서버 시스템에서 가중치 수준의 부분 업데이트를 선택적으로 수행함으로써 통신 비용을 최대 80%까지 감소시킨다.
DRESS와 함께 희소 텐서 계산을 통합함으로써 다양한 희소성 수준의 서브넷에서 효율적인 추론이 가능해져, 런타임 자원 가용성에 따라 실시간 적응이 가능하다.
제안된 방법들은 종합적으로 다양한 엣지 시나리오에서 고정확도, 저자원 딥러닝을 가능하게 하며, 정확도, 효율성, 통신 비용 측면에서 기존 접근법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.