[论文解读] D$^2$: Decentralized Training over Decentralized Data
D$^2$ 是对 D-PSGD 的方差减小扩展,能够对不同工作节点之间的数据方差具有鲁棒性,比 D-PSGD 收敛更快,接近集中式 SGD 的性能。
While training a machine learning model using multiple workers, each of which collects data from their own data sources, it would be most useful when the data collected from different workers can be {\em unique} and {\em different}. Ironically, recent analysis of decentralized parallel stochastic gradient descent (D-PSGD) relies on the assumption that the data hosted on different workers are {\em not too different}. In this paper, we ask the question: {\em Can we design a decentralized parallel stochastic gradient descent algorithm that is less sensitive to the data variance across workers?} In this paper, we present D$^2$, a novel decentralized parallel stochastic gradient descent algorithm designed for large data variance \xr{among workers} (imprecisely, "decentralized" data). The core of D$^2$ is a variance blackuction extension of the standard D-PSGD algorithm, which improves the convergence rate from $O\left({σ\over \sqrt{nT}} + {(nζ^2)^{\frac{1}{3}} \over T^{2/3}} ight)$ to $O\left({σ\over \sqrt{nT}} ight)$ where $ζ^{2}$ denotes the variance among data on different workers. As a result, D$^2$ is robust to data variance among workers. We empirically evaluated D$^2$ on image classification tasks where each worker has access to only the data of a limited set of labels, and find that D$^2$ significantly outperforms D-PSGD.
研究动机与目标
- 当数据跨工作节点高度不相同时,推动去中心化训练。
- 开发一个与 D-PSGD 集成的方差减小机制,以减小外部方差的影响。
- 在理论上建立收敛性保证,显示改进的收敛速率。
- 在标签分布不均匀的图像分类任务上对 D$^2$ 进行经验验证。
提出的方法
- 通过从上一次迭代存储梯度和局部模型,并与当前梯度和模型线性组合,扩展 D-PSGD,加入方差减小组件。
- 更新规则将本地更新与当前与先前梯度的组合进行聚合,以减小跨工作节点的数据方差。
- 提供全局更新表达式 X_{t+1} = (2X_t - X_{t-1} - γG(X_t; ξ_t) + γG(X_{t-1}; ξ_{t-1}))W。
- 证明平均迭代遵循一个降低方差的动态,从而实现对跨工作节点全局数据方差 ζ^2 的独立性、更优的收敛性。
- 给出假设,包括梯度的 Lipschitz、每个工作者方差有界、对称的共识矩阵及谱间隙,以及网络拓扑的考虑。
- 给出理论收敛性保证及推论,显示相较于 D-PSGD 的收敛速率提升。
实验结果
研究问题
- RQ1能否设计一个对工作节点之间数据方差较大具有鲁棒性的去中心化 SGD 算法?
- RQ2将方差减小策略整合进 D-PSGD 后,收敛速率是否从 O(σ/√(nT)) + O((nζ^2)^{1/3}/T^{2/3}) 提升到 O(σ/√(nT))?
- RQ3在何种条件下 D$^2$ 能实现随工作节点数量的线性加速?
- RQ4当工作节点拥有不重叠或受限标签的数据集时,D$^2$ 相较 D-PSGD 和集中式 SGD 的实证表现如何?
主要发现
- D$^2$ 实现的收敛速率为 O(σ/√(nT)),相较于依赖 ζ^2(外部方差)的 D-PSGD 收敛速率。
- 方差减小组件在渐近速率中消除了跨工作节点全局数据方差的依赖。
- 在适当条件下理论结果显示随工作节点数量的线性加速。
- 在每个工作节点具有受限标签数据的图像分类任务上的实证实验表明 D$^2$ 明显优于 D-PSGD,接近集中式性能,尤其在未洗牌(高方差)设置中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。