QUICK REVIEW

[论文解读] Caffe con Troll: Shallow Ideas to Speed Up Deep Learning

Stefan Hadjis, Firas Abuzaid|arXiv (Cornell University)|Apr 16, 2015

Video Analysis and Summarization参考文献 9被引用 23

一句话总结

Caffe con Troll (CcT) 是 Caffe 的重新设计、完全兼容的版本，通过优化的 CPU 批处理和自动选择最优卷积降低策略来加速深度学习。它在纯 CPU 训练中实现了最高 4.5× 的加速，并支持混合 CPU-GPU 加速，在 EC2 GPU 实例上实现了 15% 以上的端到端加速，充分利用了未被充分利用的 CPU 资源。

ABSTRACT

We present Caffe con Troll (CcT), a fully compatible end-to-end version of the popular framework Caffe with rebuilt internals. We built CcT to examine the performance characteristics of training and deploying general-purpose convolutional neural networks across different hardware architectures. We find that, by employing standard batching optimizations for CPU training, we achieve a 4.5x throughput improvement over Caffe on popular networks like CaffeNet. Moreover, with these improvements, the end-to-end training time for CNNs is directly proportional to the FLOPS delivered by the CPU, which enables us to efficiently train hybrid CPU-GPU systems for CNNs.

研究动机与目标

研究在不同硬件架构（尤其是 CPU 和 GPU）上训练和部署通用卷积神经网络（CNN）的性能特征。
识别并优化深度学习工作负载中的关键瓶颈，特别是消耗 70–90% 训练时间的卷积层。
探索基于矩阵乘法的卷积降低技术在 CPU 和 GPU 上的权衡。
通过证明未被充分利用的 CPU 可显著提升吞吐量，实现 CNN 的混合 CPU-GPU 系统。
构建一个完全兼容的端到端系统，保持与 Caffe 输出一致，同时通过架构和算法优化提升性能。

提出的方法

分叉 Caffe 并重构其内部结构，创建 CcT，一个完全兼容的端到端系统，保持 Caffe 的逐层输出一致性。
在 CPU 训练中应用标准的批处理优化，这些优化在现有框架中常被忽略，以改善内存访问和并行性。
探索三种不同的降低策略，通过 BLAS 兼容库（如 OpenBLAS 和 Intel MKL）将 3D 卷积操作重映射为矩阵乘法。
提出一种自动优化器，根据卷积层的输入通道与输出通道比选择最佳降低策略。
设计并评估一种混合 CPU-GPU 系统，其中两个处理器同时执行相同的卷积层，利用 GPU 实例中未被充分利用的 CPU 核心。
在具有不同 CPU 和 GPU 配置的 EC2 实例上测量端到端训练时间和吞吐量，以评估性能扩展性和 FLOPS 比例性。

实验结果

研究问题

RQ1标准的 CPU 批处理优化是否能显著提升深度学习框架中的端到端训练吞吐量？
RQ2不同的卷积操作降低策略在 CPU 和 GPU 上如何影响性能？
RQ3基于卷积层的输入通道与输出通道比，选择降低技术的最佳策略是什么？
RQ4混合 CPU-GPU 系统在 CNN 训练中是否能优于同构的纯 CPU 或纯 GPU 系统？
RQ5端到端训练时间在多大程度上与 CPU 提供的 FLOPS 成正比？这种比例关系能否用于系统设计？

主要发现

仅通过 CPU 批处理优化，CcT 在 CaffeNet 等流行网络上相比 Caffe 实现了 4.5× 的端到端吞吐量提升。
CPU 上的端到端训练时间与 CPU 提供的 FLOPS 成正比，验证了将 FLOPS 作为性能预测指标的有效性。
最优卷积降低策略取决于输入通道与输出通道的比值，而简单的自动优化器可选择最佳变体，带来高达 5% 的端到端性能提升。
在 EC2 g2.2xlarge GPU 实例上，即使使用较旧且算力不足的 CPU，将 CPU 与 GPU 用于单个卷积层也能实现超过 20% 的吞吐量提升。
在 EC2 g2.8xlarge 实例上，采用 1 块 GPU + CPU 的混合系统可实现超过 15% 的端到端加速，而使用 4 块 GPU 时加速超过 3×，证明了协同处理的有效性。
研究发现，GPU 云实例中的 CPU 显著处于未充分利用状态，其集成可带来显著的性能提升，且无需进行架构层面的重大改造。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。