QUICK REVIEW

[论文解读] Importance of Data Loading Pipeline in Training Deep Neural Networks

Mahdi Zolnouri, Xinlin Li|arXiv (Cornell University)|Apr 1, 2020

Advanced Neural Network Applications参考文献 18被引用 6

一句话总结

本文研究了数据加载流水线对训练深度神经网络的影响，对比了二进制数据格式与NVIDIA DALI在加速数据读取和增强方面的表现。通过优化数据加载，作者实现了20–40%的训练加速，在大规模模型训练中显著减少了时间开销，尤其在数据增强增加I/O和处理开销的情况下。

ABSTRACT

Training large-scale deep neural networks is a long, time-consuming operation, often requiring many GPUs to accelerate. In large models, the time spent loading data takes a significant portion of model training time. As GPU servers are typically expensive, tricks that can save training time are valuable.Slow training is observed especially on real-world applications where exhaustive data augmentation operations are required. Data augmentation techniques include: padding, rotation, adding noise, down sampling, up sampling, etc. These additional operations increase the need to build an efficient data loading pipeline, and to explore existing tools to speed up training time. We focus on the comparison of two main tools designed for this task, namely binary data format to accelerate data reading, and NVIDIA DALI to accelerate data augmentation. Our study shows improvement on the order of 20% to 40% if such dedicated tools are used.

研究动机与目标

为解决大规模深度学习训练中日益突出的数据加载瓶颈，尤其是在计算密集型数据增强条件下。
探究专用工具（如二进制数据格式和NVIDIA DALI）是否能在实际应用中减少训练时间。
比较二进制数据格式与NVIDIA DALI在加速数据加载和增强流水线方面的性能提升。
量化高效数据流水线对大规模模型整体训练效率的影响。

提出的方法

采用二进制数据格式以更高效地存储和读取训练数据，从而减少模型训练过程中的I/O开销。
利用NVIDIA DALI将数据增强操作（如旋转、添加噪声、缩放）卸载并加速至GPU上执行。
通过对比启用和未启用优化数据流水线的模型，基准测试训练时间以衡量性能提升。
比较使用二进制数据格式与DALI加速流水线时的端到端训练吞吐量和GPU利用率。
测量在真实世界深度学习工作负载中，数据加载与增强对总训练时间的相对贡献。
分析两种工具在不同模型规模和数据增强复杂度水平下的可扩展性。

实验结果

研究问题

RQ1在大规模深度神经网络中，数据加载延迟占总训练时间的比例有多大？
RQ2二进制数据格式在多大程度上能减少深度学习训练中的数据加载开销？
RQ3与基于CPU的方法相比，NVIDIA DALI在加速数据增强操作方面有多高效？
RQ4同时使用二进制数据格式和NVIDIA DALI时，性能提升的综合效果如何？
RQ5通过专用工具优化数据加载流水线后，训练时间的可测量加速比是多少？

主要发现

在大规模深度神经网络中，数据加载占用了训练时间的显著部分，尤其是在应用大量数据增强时。
使用二进制数据格式可减少I/O开销并加快数据读取速度，从而促进更快的训练周期。
NVIDIA DALI通过将数据增强操作卸载至GPU，显著减少了CPU瓶颈。
结合使用二进制数据格式与NVIDIA DALI可使总训练时间减少20–40%。
在需要复杂数据增强流水线的实际应用场景中，性能提升最为显著。
优化数据加载流水线可实现更高效的GPU利用率并加快模型收敛速度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。