[論文レビュー] Orchestrating Multimodal DNN Workloads in Wireless Neural Processing
要約: 本論文は、多模態推論のために無線伝送とマルチコアDNN実行を共同最適化するO-WiNを提案し、順次実行とパイプライン有効化のスケジューリングを比較するRTFSとPACSを導入する。PACSは異種の多模態ワークロードにおいて、計算と通信の重畳により通信待ち時間をマスクすることからRTFSより著しく高い性能を示す。
In edge inference, wireless resource allocation and accelerator-level deep neural network (DNN) scheduling have yet to be co-optimized in an end-to-end manner. The lack of coordination between wireless transmission and accelerator-level DNN execution prevents efficient overlap, leading to higher end-to-end inference latency. To address this issue, this paper investigates multimodal DNN workload orchestration in wireless neural processing (WNP), a paradigm that integrates wireless transmission and multi-core accelerator execution into a unified end-to-end pipeline. First, we develop a unified communication-computation model for multimodal DNN execution and formulate the corresponding optimization problem. Second, we propose O-WiN, a framework that orchestrates DNN workloads in WNP through two tightly coupled stages: simulation-based optimization and runtime execution. Third, we develop two algorithms, RTFS and PACS. RTFS schedules communication and computation sequentially, whereas PACS interleaves them to enable pipeline parallelism by overlapping wireless data transfer with accelerator-level DNN execution. Simulation results demonstrate that PACS significantly outperforms RTFS under high modality heterogeneity by better masking wireless latency through communication-computation overlap, thereby highlighting the effectiveness of communication-computation pipelining in accelerating multimodal DNN execution in WNP.
研究の動機と目的
- 無線データ伝送のエンドツーエンド最適化とマルチモーダルワークロードに対するアクセラレータレベルのDNN実行を動機づける。
- 無線ニューラル処理(WNP)における通信–計算の統一パイプラインをモデル化する。
- O-WiNと二つのスケジューリングアルゴリズムを開発し、エンドツーエンドのメイクスパンを最小化する。
提案手法
- OFDMAベースの上り伝送と、多コアアクセラレータ上の優先度制約付き並列機械スケジューリングを結ぶ統一モデルを定式化する。
- ジョブをモダリティ特異的DNN演算子としてDAG依存性とNoC帯域制約下でのコアマッピングとして定義する。
- 通信システム、計算プラットフォーム、最適化アルゴリズム、性能評価の四つのモジュールからなるO-WiNを導入する。
- 二つのヒューリスティックアルゴリズムを Develop する:RTFS(逐次送信→計算)とPACS(パイプライン対応の共スケジューリング)。
- シミュレーションを用いて、コア数、サブキャリア、圧縮因子を変化させたときのメイクスパンと各コアのNoC帯域幅を評価する。
実験結果
リサーチクエスチョン
- RQ1多模態推論におけるエンドツーエンドの待機を減らすために、無線リソース割り当てとアクセラレータレベルDNNスケジューリングを共同で最適化するにはどうすればよいか。
- RQ2WNPにおけるオーバーレイ通信–計算パイプライン化の利点と、待機全体アプローチとの比較は何か。
- RQ3モダリティの異質性とシステムパラメータ(コア数、NoC予算、OFDMAサブキャリア)がエンドツーエンドの性能に与える影響はどのようになるか。
- RQ4PACSはPACSがモダリティサブグラフ全体でデータ伝送と計算を重畳させることでRTFSを上回ることができるか。
主な発見
- PACSはモダリティの異質性が高い場合に、通信–計算の重畳を通じて無線遅延をより良くマスクすることでRTFSを著しく上回る。
- 統一されたパイプラインフレームワーク(O-WiN)は、無線伝送とDNN実行を横断するエンドツーエンド最適化を実現する。
- シミュレーション結果は、パイプライン並列性とステージの重畳による利点を示し、コア数、サブキャリア、レイテンシ要因、圧縮に対する感度分析を含む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。