[論文レビュー] Where to Split? A Pareto-Front Analysis of DNN Partitioning for Edge Inference
論文はParetoPipeを紹介する。エッジ推論のDNNパーティショニングをマルチオブジェクティブ問題として扱い、異種のエッジ機器とネットワーク条件の下で遅延とスループットのParetoフロンティアをマッピングするオープンソースフレームワーク。
The deployment of deep neural networks (DNNs) on resource-constrained edge devices is frequently hindered by their significant computational and memory requirements. While partitioning and distributing a DNN across multiple devices is a well-established strategy to mitigate this challenge, prior research has largely focused on single-objective optimization, such as minimizing latency or maximizing throughput. This paper challenges that view by reframing DNN partitioning as a multi-objective optimization problem. We argue that in real-world scenarios, a complex trade-off between latency and throughput exists, which is further complicated by network variability. To address this, we introduce ParetoPipe, an open-source framework that leverages Pareto front analysis to systematically identify optimal partitioning strategies that balance these competing objectives. Our contributions are threefold: we benchmark pipeline partitioned inference on a heterogeneous testbed of Raspberry Pis and a GPU-equipped edge server; we identify Pareto-optimal points to analyze the latency-throughput trade-off under varying network conditions; and we release a flexible, open-source framework to facilitate distributed inference and benchmarking. This toolchain features dual communication backends, PyTorch RPC and a custom lightweight implementation, to minimize overhead and support broad experimentation.
研究の動機と目的
- エッジ推論のためのDNNパーティショニングを、遅延とスループットをバランスさせるマルチオブジェクティブ最適化問題として再構成する。
- 異種のエッジ機器上でパイプライン分割推論をベンチマークし、Pareto最適フロンティアをマッピングする。
- ネットワーク遅延と帯域幅の変動下で、パーティショニング戦略のロバスト性を評価する。
- 分散推論のベンチマークと分析を可能にするオープンソースフレームワークを提供する。
提案手法
- ParetoPipeを提案。エッジデバイス間でDNNを分割する拡張可能なフレームワークで、パイプライン並列性を使用。
- デュアル通信バックエンドを実装。PyTorch RPCとカスタムの軽量TCPソケットバックエンドを用いてオーバーヘッドを検討。
- 6つのCNNモデルでブロック単位の実行時間をプロファイルし、最適な分割点を同定。
- Pi-to-PiおよびPi-to-GPU構成で網羅的な分割点テストを実施し、遅延-スループットのParetoフロンティアを生成。
- tcを用いて悪条件のネットワークをシミュレートし、遅延/帯域幅制約下でフロンティアのシフトを検討。
- カスタムバックエンドをPyTorch RPCと比較し、オーバーヘッドとパフォーマンスの差を定量化。
実験結果
リサーチクエスチョン
- RQ1エッジ推論のDNNパーティショニングを、遅延とスループットをバランスさせるマルチオブジェクティブ最適化問題としてどのように分析できるか?
- RQ2異種のエッジ機器上で一般的なCNNモデルのPareto最適分割点は何か?
- RQ3ネットワーク遅延と帯域幅の制約は遅延-スループットフロンティアをどうシフトさせ、パーティショニングの意思決定にどう影響するか?
- RQ4分散推論でカスタムソケットベースのバックエンドを使用する場合の性能影響は、PyTorch RPCとどう異なるか?
- RQ5ブロックレベルのプロファイリングは、モデルと構成全体で最適な分割戦略にどう影響するか?
主な発見
- ParetoFrontiersはPi-to-PiとPi-to-GPUの展開で異なる最適分割点を示し、MobileNetV2や類似モデルはPi-to-Piで非対称分割を好み、GPUが関与するとよりオフロード寄りになる。
- 現実的なネットワーク制約下ではフロンティアがエッジ側の計算へと移動し、データ転送のオーバーヘッドが高いとGPUオフロードの利益が低下する。
- カスタムソケットベースのバックエンドはエンドツーエンドのレイテンシを大幅に削減(MobileNetV2のスループット例で最大76%)し、スループットを最大53%向上させるのに対し、PyTorch RPCと比較。
- ブロック単位のプロファイリングにより、すべてのブロックが等しくコスト高ではなく、計算とデバイス間通信のバランスをとる分割点を導く。
- ネットワーク条件は第一級のボトルネックであり、高遅延/低帯域はデータ転送オーバーヘッドのためGPUアクセラレーションを効果的でなくする可能性がある。
- ネットワークボトルネック下ではParetoフロンティアがまばらになり、ネットワーク対応の適応分割の必要性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。