[논문 리뷰] Where to Split? A Pareto-Front Analysis of DNN Partitioning for Edge Inference
논문은 DNN partitioning을 경계 엣지 추론의 다객체 최적화 문제로 다루는 ParetoPipe라는 오픈소스 프레임워크를 제시하며, 이 프레임워크는 이종 엣지 하드웨어와 네트워크 조건에서 잠재 대역처 (latency)와 처리량 (throughput) 간의 Pareto 프론티어를 매핑합니다.
The deployment of deep neural networks (DNNs) on resource-constrained edge devices is frequently hindered by their significant computational and memory requirements. While partitioning and distributing a DNN across multiple devices is a well-established strategy to mitigate this challenge, prior research has largely focused on single-objective optimization, such as minimizing latency or maximizing throughput. This paper challenges that view by reframing DNN partitioning as a multi-objective optimization problem. We argue that in real-world scenarios, a complex trade-off between latency and throughput exists, which is further complicated by network variability. To address this, we introduce ParetoPipe, an open-source framework that leverages Pareto front analysis to systematically identify optimal partitioning strategies that balance these competing objectives. Our contributions are threefold: we benchmark pipeline partitioned inference on a heterogeneous testbed of Raspberry Pis and a GPU-equipped edge server; we identify Pareto-optimal points to analyze the latency-throughput trade-off under varying network conditions; and we release a flexible, open-source framework to facilitate distributed inference and benchmarking. This toolchain features dual communication backends, PyTorch RPC and a custom lightweight implementation, to minimize overhead and support broad experimentation.
연구 동기 및 목표
- 엣지 추론을 위한 DNN 파티셔닝을 대기시간(지연)과 처리량의 균형을 맞추는 다객체 최적화 문제로 재정의합니다.
- 이종 엣지 하드웨어에서 파이프라인으로 파티션된 인퍼런스 벤치마크를 통해 Pareto-최적 프론티어를 매핑합니다.
- 다양한 네트워크 지연 및 대역폭에서 파티션 전략의 로버스트니스를 평가합니다.
- 분산 인퍼런스 벤치마킹 및 분석을 가능하게 하는 오픈소스 프레임워크를 제공합니다.
제안 방법
- ParetoPipe를 제안합니다. 이는 엣지 디바이스 전반에 걸쳐 DNN을 파티션하기 위한 확장 가능한 프레임워크로 파이프라인 병렬화를 사용합니다.
- 오버헤드를 연구하기 위해 이중 통신 백엔드를 구현합니다: PyTorch RPC와 경량 TCP 소켓 백엔드로 구성되어 있습니다.
- 여섯 개의 CNN 모델에 걸쳐 블록 단위 실행 시간을 프로파일링하여 최적의 분할 지점을 식별합니다.
- Pi-대-Pi 및 Pi-대-GPU 설정에서 분할 지점을 전수 조사하여 지연-처리량 Pareto 프런티어를 생성합니다.
- tc를 사용한 네트워크 악조건 시나리오를 시뮬레이션하여 지연/대역폭 제약하에서 프런티어의 변화를 연구합니다.
- 분산 추론에서의 오버헤드 및 성능 차이를 정량화하기 위해 커스텀 백엔드와 PyTorch RPC를 비교합니다.
실험 결과
연구 질문
- RQ1엣지 추론을 위한 DNN 파티셔닝을 지연과 처리량의 균형을 맞추는 다객체 최적화 문제로 어떻게 분석할 수 있는가?
- RQ2이종 엣지 하드웨어에서 일반적인 CNN 모델에 대한 Pareto-최적 파티션 지점은 무엇인가?
- RQ3네트워크 지연과 대역폭 한계가 지연-처리량 프런티어를 어떻게 변화시키고 파티션 결정에 어떤 영향을 주는가?
- RQ4분산 추론에서 커스텀 소켓 기반 백엔드와 PyTorch RPC를 사용하는 성능 차이는 무엇인가?
- RQ5블록 단위 프로파일링이 모델과 구성 전반에 걸친 최적의 파티션 전략에 어떤 영향을 미치는가?
주요 결과
- ParetoFrontiers는 Pi-대-Pi 배치와 Pi-대-GPU 배치 간에 서로 다른 최적 분할 지점을 보여주며, MobileNetV2 및 유사 모델은 Pi-대-Pi에서 비대칭 분할을 선호하고 GPU가 관여할 때는 더 많은 오프로드를 보인다.
- 현실적인 네트워크 제약하에서 프런티어는 엣지 디바이스의 계산으로 더 기울며, 대용량 데이터 전송 오버헤드는 GPU 오프로드의 이점을 악화시킨다.
- 커스텀 소켓 기반 백엔드는 PyTorch RPC에 비해 End-to-End 지연을 최대 76%까지 감소시키고 처리량을 최대 53%까지 증가시킨다.
- 블록 단위 프로파일링은 모든 블록이 동일하게 비용이 들지 않음을 보여주며, 컴퓨트와 디바이스 간 통신의 균형에 파티션 지점을 안내한다.
- 네트워크 조건은 1차적 병목이며, 높은 지연/낮은 대역폭은 데이터 전송 오버헤드로 인해 GPU 가속 효과를 감소시킬 수 있다.
- 네트워크 병목 하에서 Pareto 프런티어는 희소해지며, 네트워크 인지적 적응 파티션의 필요성이 강조된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.