[论文解读] Less is More: Accelerating Faster Neural Networks Straight from JPEG
该论文提出一种方法,通过以数据驱动的方式学习组合所有DCT系数并跳过早期网络阶段,加速JPEG压缩域卷积神经网络。通过使用通道间投影(CCPP)并剪枝早期层,该方法将计算成本降低50%,同时在ImageNet上提升准确率,优于以往通过丢弃高频DCT系数或增加模型复杂度的方法。
Most image data available are often stored in a compressed format, from which JPEG is the most widespread. To feed this data on a convolutional neural network (CNN), a preliminary decoding process is required to obtain RGB pixels, demanding a high computational load and memory usage. For this reason, the design of CNNs for processing JPEG compressed data has gained attention in recent years. In most existing works, typical CNN architectures are adapted to facilitate the learning with the DCT coefficients rather than RGB pixels. Although they are effective, their architectural changes either raise the computational costs or neglect relevant information from DCT inputs. In this paper, we examine different ways of speeding up CNNs designed for DCT inputs, exploiting learning strategies to reduce the computational complexity by taking full advantage of DCT inputs. Our experiments were conducted on the ImageNet dataset. Results show that learning how to combine all DCT inputs in a data-driven fashion is better than discarding them by hand, and its combination with a reduction of layers has proven to be effective for reducing the computational costs while retaining accuracy.
研究动机与目标
- 在不牺牲准确率的前提下,降低处理JPEG压缩图像的CNN的计算复杂度。
- 克服以往方法的局限性,这些方法要么丢弃高频DCT系数,要么增加模型参数和FLOPs。
- 探索对所有DCT系数进行数据驱动融合,而非依赖启发式滤波或剪枝。
- 评估在JPEG域中跳过早期网络阶段对准确率和效率的影响。
- 证明通过阶段跳过实现的架构简化,若与智能的DCT输入处理相结合,可提升性能。
提出的方法
- 提出一种基于通道卷积投影(CCPP)的数据驱动融合策略,将每个8×8块的64个DCT系数全部组合,保留丰富的频域信息。
- 修改ResNet-50架构以直接接收DCT系数,绕过完整的RGB解码过程。
- 引入一种策略,跳过网络的第一和第二阶段,通过CCPP保持输入通道一致性,从而减少FLOPs和参数量。
- 采用带有DCT输入的残差块设计,用DCT感知操作替代标准卷积层,以维持频域处理能力。
- 采用逐步减少网络深度的方法,评估不同阶段跳过配置下的性能表现。
- 在ImageNet上验证该方法,与最先进基于DCT的模型对比准确率、FLOPs和参数量。
实验结果
研究问题
- RQ1数据驱动的全部DCT系数融合是否优于手工设计的滤波或高频分量剪枝?
- RQ2在基于DCT的CNN中跳过早期网络阶段是否能降低计算成本,同时提升或保持准确率?
- RQ3在第一阶段将输入通道从64减少到128时,基于CCPP的通道投影是否能有效保持特征表示?
- RQ4与现有最先进基于DCT的模型相比,DCT输入融合与阶段跳过组合在FLOPs和准确率方面表现如何?
- RQ5阶段跳过的性能增益是否依赖于输入表示策略(例如,CCPP与FBS)?
主要发现
- 跳过网络的第一和第二阶段,将计算复杂度降低至2.86 GFLOPs,参数量减少至25.1M,实现了速度与准确率的最佳平衡。
- 所提方法在ImageNet子集上达到71.21%的top-1准确率,在粗粒度验证集上达到70.49%,优于以往基于DCT的模型。
- 数据驱动的CCPP融合全部DCT系数,性能优于FBS方法(后者丢弃50%的系数),证明完整利用DCT输入具有优势。
- 该模型在保持高准确率(全ImageNet上top-1准确率为94.84%)的同时显著降低计算成本,在基于DCT的模型中排名第二。
- 将CCPP与阶段跳过相结合的策略,比增加模型深度或使用启发式DCT滤波更有效。
- 结果表明,通过阶段跳过实现的架构简化,若与智能的输入表示学习相结合,可提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。