QUICK REVIEW

[論文レビュー] On the Fundamental Limits of Coded Data Shuffling for Distributed Learning Systems.

Adel Elmahdy, Soheil Mohajer|arXiv (Cornell University)|Jul 11, 2018

Stochastic Gradient Optimization Techniques被引用数 2

ひとこと要約

本稿は、最悪のファイル順列に対して通信負荷を最小化する新しい決定的符号化シャッフル方式を提案することで、分散学習システムにおける符号化データシャッフルの根本的限界を確立する。通信負荷の正確なレート-メモリトレードオフを導出し、一致する下界を用いて最適性を証明する。従来の研究を著しく改善し、ワーカーノードのキャッシュを横断する符号化関数を活用する。

ABSTRACT

We consider the data shuffling problem in a distributed learning system, in which a master node is connected to a set of worker nodes, via a shared link, in order to communicate a set of files to the worker nodes. The master node has access to a database of files. In every shuffling iteration, each worker node processes a new subset of files, and has excess storage to partially cache the remaining files, assuming the cached files are uncoded. The caches of the worker nodes are updated every iteration, and it should be designed to satisfy any possible unknown permutation of the files in subsequent iterations. For this problem, we characterize the exact rate-memory trade-off for worst-case shuffling by deriving the minimum communication load for a given storage capacity per worker node. As a byproduct, the exact rate-memory trade-off for any shuffling is characterized when the number of files is equal to the number of worker nodes. We propose a novel deterministic coded shuffling scheme, which improves the state of the art, by exploiting the cache memories to create coded functions that can be decoded by several worker nodes. Then, we prove the optimality of our proposed scheme by deriving a matching lower bound and showing that the placement phase of the proposed coded shuffling scheme is optimal over all shuffles.

研究の動機と目的

符号化キャッシュを用いた分散学習システムにおける最悪のデータシャッフルの正確なレート-メモリトレードオフを特定すること。
任意のファイル順列に対して通信負荷を最小化する決定的符号化シャッフル方式を設計すること。
通信負荷の一致する下界を導出し、提案された方式の最適性を証明すること。
提案された方式の配置フェーズが、すべての可能なシャッフルにおいて最適であることを示すこと。

提案手法

ワーカーノードのキャッシュメモリを活用して、複数のワーカーが同時に復号可能な符号化関数を生成する新しい決定的符号化シャッフル方式を提案する。
将来の反復において未知のファイル順列をサポートできるように、キャッシュを事前条件づける配置フェーズを設計する。
構造化符号化アプローチを用いて、複数のワーカーが同時に必要なファイルを復号できる符号化伝送を生成する。
情報理論的議論を用いて通信負荷の下界を導出し、最適性を証明する。
最悪のシャッフルシナリオ下でのストレージ容量（メモリ）と通信負荷のトレードオフを分析する。
ファイル数とワーカーノード数が等しい特殊ケースにおいて、正確なレート-メモリトレードオフが完全に特定されることを示す。

実験結果

リサーチクエスチョン

RQ1最悪のファイル順列下での符号化データシャッフルにおける通信負荷の根本的限界は何か？
RQ2ワーカーノードのキャッシュを活用しながら、通信量を最小化する符号化関数はどのように設計できるか？
RQ3提案された符号化シャッフル方式は、すべての可能なシャッフルにおいて通信負荷の観点で最適か？
RQ4ファイル割り当てのすべての可能な順列に対して、配置フェーズを最適化できるか？

主な発見

提案された符号化シャッフル方式は、最悪のシャッフル下で、各ワーカーノードのストレージ容量が与えられた条件下で可能な最小通信負荷を達成する。
一致する下界が導出され、提案された方式が情報理論的に最適であることが証明された。
ファイル数とワーカーノード数が等しい特殊ケースにおいて、レート-メモリトレードオフが正確に特定された。
方式の配置フェーズが、すべての可能なシャッフルにおいて最適であることが証明され、任意の順列に対して最小通信が保証された。
キャッシュを横断する符号化関数を活用することで、冗長な伝送を削減し、最先端技術を著しく改善した。
本研究は、分散学習システムにおける符号化データシャッフルの根本的限界を初めて正確に同定した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。