[논문 리뷰] Edge AI: On-Demand Accelerating Deep Neural Network Inference via Edge Computing
Edgent는 정적이든 동적이든 네트워크 상태에 적응하여 필요한 경우의 저지연 에지 추론을 가능하게 하는 공동 DNN 파티셔닝과 오른쪽 크기 조정을 제안합니다. Raspberry Pi 기반 프로토타입은 장치 전용 또는 클라우드 전용 접근 방식보다 반응성이 향상됨을 보여줍니다.
As a key technology of enabling Artificial Intelligence (AI) applications in 5G era, Deep Neural Networks (DNNs) have quickly attracted widespread attention. However, it is challenging to run computation-intensive DNN-based tasks on mobile devices due to the limited computation resources. What's worse, traditional cloud-assisted DNN inference is heavily hindered by the significant wide-area network latency, leading to poor real-time performance as well as low quality of user experience. To address these challenges, in this paper, we propose Edgent, a framework that leverages edge computing for DNN collaborative inference through device-edge synergy. Edgent exploits two design knobs: (1) DNN partitioning that adaptively partitions computation between device and edge for purpose of coordinating the powerful cloud resource and the proximal edge resource for real-time DNN inference; (2) DNN right-sizing that further reduces computing latency via early exiting inference at an appropriate intermediate DNN layer. In addition, considering the potential network fluctuation in real-world deployment, Edgentis properly design to specialize for both static and dynamic network environment. Specifically, in a static environment where the bandwidth changes slowly, Edgent derives the best configurations with the assist of regression-based prediction models, while in a dynamic environment where the bandwidth varies dramatically, Edgent generates the best execution plan through the online change point detection algorithm that maps the current bandwidth state to the optimal configuration. We implement Edgent prototype based on the Raspberry Pi and the desktop PC and the extensive experimental evaluations demonstrate Edgent's effectiveness in enabling on-demand low-latency edge intelligence.
연구 동기 및 목표
- 저지연 DNN 추론의 필요성을 모바일/에지 맥락에서의 제한된 기기 컴퓨팅과 클라우드 데이터센터까지의 WAN 대기 시간으로 인해 동기화한다.
- 저지연 제약을 충족하기 위해 DNN 파티셔닝과 DNN 오른쪽 크기 조정을 조합하여 최적화하는 프레임워크 Edgent를 제안한다.
- 특화된 구성자와 런타임 최적화 전략으로 정적 및 동적 네트워크 환경을 다룬다.
- 실험적 평가와 프로토타입 구현을 통해 추론 지연 감소에 대한 효과를 보여준다.
제안 방법
- 가용 대역폭에 따라 디바이스와 에지 서버 간의 계산 분할을 도입한다.
- 정확도와 타협하며 총 지연을 줄이기 위한 조기 종료 분기를 활용한 DNN 오른쪽 크기 조정을 도입한다.
- 오프라인 구성(회귀 기반 지연 예측 및 분기형 DNN 학습)과 온라인 튜닝(최적의 파티션/종료 지점 탐색)으로 이르는 2단계 구성자를 개발한다.
- 정적 네트워크의 경우 계층별 지연 예측기를 학습하고 파티션/종료 지점에 대한 완전 탐색을 사용하여 지연 하에서 정확도를 최대화한다.
- 동적 네트워크의 경우 대역폭 상태에서 보상 기반 탐색을 사용하여 구성 맵을 구축하고 시간에 따라 변화점을 감지하는 방법으로 실시간에 적응한다.
실험 결과
연구 질문
- RQ1디바이스-에지 협업을 통해 사전에 정의된 지연을 만족하면서 DNN 추론 정확도를 최대화할 수 있는가?
- RQ2정적 대역폭 환경과 동적 대역폭 환경에서 DNN 파티셔닝 및 오른쪽 크기 조정을 어떻게 달리 설계해야 하는가?
- RQ3오프라인 프로파일링과 온라인 최적화로 대역폭 변화에 대응하는 주문형 저지연 에지 인텔리전스를 달성할 수 있는가?
- RQ4에지 기반 DNN 추론에서 최적의 파티션 및 종료 결정에 대역폭이 미치는 영향은 무엇인가?
주요 결과
- 다양한 대역폭에서 실시간 DNN 추론을 위한 에지 전용 또는 디바이스 전용 접근 방식은 충분하지 않다.
- Edgent를 사용하면 대역폭이 향상될수록 최적의 종료 및 파티션 지점이 더 많은 에지 계산 쪽으로 이동한다.
- 정적 대역폭 실험에서 지연 예측은 회귀 모델의 예측이 측정된 지연과 근접하게 일치한다.
- 동적 대역폭 실험은 변화점 탐지를 통한 빠른 온라인 적응을 위해 428개의 대역폭 상태에 대한 구성 맵을 구축한다.
- 분기형 AlexNet은 더 깊은 실행이 가능할 때 종료 지점에서 더 높은 정확도를 달성하도록 조정되어, 더 타이트한 지연에서의 초기 종료에 비해 성능이 향상된다.
- Edgent는 Raspberry Pi 및 데스크탑 PC 프로토타입으로 주문형 저지연 에지 인텔리전스를 가능하게 한다.
- 에지 기반 DNN 지연은 대역폭 하락에 여전히 민감하므로 에지 협업 및 오른쪽 크기 조정의 필요성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.