QUICK REVIEW

[论文解读] Parle: parallelizing stochastic gradient descent

Pratik Chaudhari, Carlo Baldassi|arXiv (Cornell University)|Jul 3, 2017

Stochastic Gradient Optimization Techniques参考文献 35被引用 18

一句话总结

Parle 是一种用于深度神经网络的新型并行训练算法，通过在多GPU和分布式系统中实现低频通信与平坦极小值的利用，使收敛速度比数据并行SGD快2–4倍，同时在CIFAR-10和CIFAR-100上实现了最先进水平的泛化误差。它采用多个模型副本进行训练，结合熵正则化和通过近端耦合项实现的不频繁通信，无需额外超参数即可实现高效扩展。

ABSTRACT

We propose a new algorithm called Parle for parallel training of deep networks that converges 2-4x faster than a data-parallel implementation of SGD, while achieving significantly improved error rates that are nearly state-of-the-art on several benchmarks including CIFAR-10 and CIFAR-100, without introducing any additional hyper-parameters. We exploit the phenomenon of flat minima that has been shown to lead to improved generalization error for deep networks. Parle requires very infrequent communication with the parameter server and instead performs more computation on each client, which makes it well-suited to both single-machine, multi-GPU settings and distributed implementations.

研究动机与目标

解决分布式SGD训练深度网络时通信成本与泛化性能之间的权衡问题。
克服大批次SGD（泛化性能差）和小批次SGD（通信开销高）的局限性。
在单机多GPU和分布式环境中实现高效、可扩展的并行训练，且超参数调优极少。
利用平坦极小值概念提升泛化性能，同时减少通信频率。
开发一个统一框架，结合熵正则化与弹性平均，实现鲁棒、可扩展的优化。

提出的方法

并行训练多个相同模型的副本，每个副本在数据子集上执行多次梯度步长。
使用一种称为“局部熵”的修改损失函数 $ f_{\rho}(x) = -\log\left(G_{\gamma} * e^{-f(x)}\right) $，以平滑非凸损失曲面并促进平坦极小值。
通过近端项 $ \frac{1}{2\rho} \|x^a - x\|^2 $ 将副本耦合，强制其向共享参考参数 $ x $ 保持一致，从而降低通信频率。
通过“范围缩放”逐步减小 $ \gamma \to 0 $ 和 $ \rho \to 0 $，使副本最终收敛至单一最优解。
在参数服务器架构中实现该算法，采用不频繁同步，适用于异构系统。
所有实验均保持相同的超参数设置，无需超出标准SGD设置的额外调优。

实验结果

研究问题

RQ1我们能否通过减少并行SGD中的通信频率，在深度学习中实现更快的收敛速度和更好的泛化性能？
RQ2通过近端项耦合多个模型副本并结合熵正则化，如何在不增加超参数复杂度的情况下提升泛化性能？
RQ3通过Parle在划分数据上训练的模型，在多大程度上能匹配或超越全批次SGD的性能？
RQ4局部熵和范围缩放的使用是否能在非凸深度学习问题中实现稳定收敛至平坦极小值？
RQ5Parle能否在计算能力和通信能力各异的异构系统中实现高效扩展？

主要发现

在CIFAR-10上，Parle使用All-CNN架构实现比基线数据并行SGD快2–4倍的训练速度，训练时间从37分钟缩短至75分钟。
Parle在CIFAR-10全量数据上达到5.18%的验证误差，优于基线SGD（6.15%）和Elastic-SGD（5.76%）的相同条件设置。
即使仅在三份副本上划分50%的数据进行训练，Parle仍达到5.89%的误差，显著优于相同子集上SGD的7.86%，表明其对数据划分的鲁棒性。
当使用六份副本各训练25%的数据时，Parle实现6.08%的误差，而SGD在相同子集上性能下降至10.96%，凸显Parle在数据稀疏情况下的补偿能力。
Parle在不引入任何新超参数的情况下保持了最先进性能，而其他方法如Elastic-SGD或Entropy-SGD则需要额外调优。
该算法对超参数不敏感：所有实验均使用相同设置，包括权重衰减 $10^{-3}$、dropout为0.5以及数据增强，证实其鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。