QUICK REVIEW

[논문 리뷰] Where to Split? A Pareto-Front Analysis of DNN Partitioning for Edge Inference

Adiba Masud, Nicholas Foley|arXiv (Cornell University)|2026. 01. 12.

Advanced Neural Network Applications인용 수 0

한 줄 요약

논문은 DNN partitioning을 경계 엣지 추론의 다객체 최적화 문제로 다루는 ParetoPipe라는 오픈소스 프레임워크를 제시하며, 이 프레임워크는 이종 엣지 하드웨어와 네트워크 조건에서 잠재 대역처 (latency)와 처리량 (throughput) 간의 Pareto 프론티어를 매핑합니다.

ABSTRACT

The deployment of deep neural networks (DNNs) on resource-constrained edge devices is frequently hindered by their significant computational and memory requirements. While partitioning and distributing a DNN across multiple devices is a well-established strategy to mitigate this challenge, prior research has largely focused on single-objective optimization, such as minimizing latency or maximizing throughput. This paper challenges that view by reframing DNN partitioning as a multi-objective optimization problem. We argue that in real-world scenarios, a complex trade-off between latency and throughput exists, which is further complicated by network variability. To address this, we introduce ParetoPipe, an open-source framework that leverages Pareto front analysis to systematically identify optimal partitioning strategies that balance these competing objectives. Our contributions are threefold: we benchmark pipeline partitioned inference on a heterogeneous testbed of Raspberry Pis and a GPU-equipped edge server; we identify Pareto-optimal points to analyze the latency-throughput trade-off under varying network conditions; and we release a flexible, open-source framework to facilitate distributed inference and benchmarking. This toolchain features dual communication backends, PyTorch RPC and a custom lightweight implementation, to minimize overhead and support broad experimentation.

연구 동기 및 목표

엣지 추론을 위한 DNN 파티셔닝을 대기시간(지연)과 처리량의 균형을 맞추는 다객체 최적화 문제로 재정의합니다.
이종 엣지 하드웨어에서 파이프라인으로 파티션된 인퍼런스 벤치마크를 통해 Pareto-최적 프론티어를 매핑합니다.
다양한 네트워크 지연 및 대역폭에서 파티션 전략의 로버스트니스를 평가합니다.
분산 인퍼런스 벤치마킹 및 분석을 가능하게 하는 오픈소스 프레임워크를 제공합니다.

제안 방법

ParetoPipe를 제안합니다. 이는 엣지 디바이스 전반에 걸쳐 DNN을 파티션하기 위한 확장 가능한 프레임워크로 파이프라인 병렬화를 사용합니다.
오버헤드를 연구하기 위해 이중 통신 백엔드를 구현합니다: PyTorch RPC와 경량 TCP 소켓 백엔드로 구성되어 있습니다.
여섯 개의 CNN 모델에 걸쳐 블록 단위 실행 시간을 프로파일링하여 최적의 분할 지점을 식별합니다.
Pi-대-Pi 및 Pi-대-GPU 설정에서 분할 지점을 전수 조사하여 지연-처리량 Pareto 프런티어를 생성합니다.
tc를 사용한 네트워크 악조건 시나리오를 시뮬레이션하여 지연/대역폭 제약하에서 프런티어의 변화를 연구합니다.
분산 추론에서의 오버헤드 및 성능 차이를 정량화하기 위해 커스텀 백엔드와 PyTorch RPC를 비교합니다.

실험 결과

연구 질문

RQ1엣지 추론을 위한 DNN 파티셔닝을 지연과 처리량의 균형을 맞추는 다객체 최적화 문제로 어떻게 분석할 수 있는가?
RQ2이종 엣지 하드웨어에서 일반적인 CNN 모델에 대한 Pareto-최적 파티션 지점은 무엇인가?
RQ3네트워크 지연과 대역폭 한계가 지연-처리량 프런티어를 어떻게 변화시키고 파티션 결정에 어떤 영향을 주는가?
RQ4분산 추론에서 커스텀 소켓 기반 백엔드와 PyTorch RPC를 사용하는 성능 차이는 무엇인가?
RQ5블록 단위 프로파일링이 모델과 구성 전반에 걸친 최적의 파티션 전략에 어떤 영향을 미치는가?

주요 결과

ParetoFrontiers는 Pi-대-Pi 배치와 Pi-대-GPU 배치 간에 서로 다른 최적 분할 지점을 보여주며, MobileNetV2 및 유사 모델은 Pi-대-Pi에서 비대칭 분할을 선호하고 GPU가 관여할 때는 더 많은 오프로드를 보인다.
현실적인 네트워크 제약하에서 프런티어는 엣지 디바이스의 계산으로 더 기울며, 대용량 데이터 전송 오버헤드는 GPU 오프로드의 이점을 악화시킨다.
커스텀 소켓 기반 백엔드는 PyTorch RPC에 비해 End-to-End 지연을 최대 76%까지 감소시키고 처리량을 최대 53%까지 증가시킨다.
블록 단위 프로파일링은 모든 블록이 동일하게 비용이 들지 않음을 보여주며, 컴퓨트와 디바이스 간 통신의 균형에 파티션 지점을 안내한다.
네트워크 조건은 1차적 병목이며, 높은 지연/낮은 대역폭은 데이터 전송 오버헤드로 인해 GPU 가속 효과를 감소시킬 수 있다.
네트워크 병목 하에서 Pareto 프런티어는 희소해지며, 네트워크 인지적 적응 파티션의 필요성이 강조된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.