[论文解读] ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch.
该论文提出 ScratchDet,一种通过利用批量归一化(BatchNorm)实现稳定训练,并引入一种新型 Root-ResNet 主干网络以保留空间信息,从而从零开始训练单阶段目标检测器的方法。该方法在 PASCAL VOC 和 MS COCO 数据集上实现了当前最优的性能,且无需 ImageNet 预训练,优于多个使用 ImageNet 微调的单阶段检测器。
Current state-of-the-art object objectors are fine-tuned from the off-the-shelf networks pretrained on large-scale classification dataset ImageNet, which incurs some additional problems: 1) The classification and detection have different degrees of sensitivity to translation, resulting in the learning objective bias; 2) The architecture is limited by the classification network, leading to the inconvenience of modification. To cope with these problems, training detectors from scratch is a feasible solution. However, the detectors trained from scratch generally perform worse than the pretrained ones, even suffer from the convergence issue in training. In this paper, we explore to train object detectors from scratch robustly. By analysing the previous work on optimization landscape, we find that one of the overlooked points in current trained-from-scratch detector is the BatchNorm. Resorting to the stable and predictable gradient brought by BatchNorm, detectors can be trained from scratch stably while keeping the favourable performance independent to the network architecture. Taking this advantage, we are able to explore various types of networks for object detection, without suffering from the poor convergence. By extensive experiments and analysis on downsampling factor, we propose the Root-ResNet backbone network, which makes full use of the information from original images. Our ScratchDet achieves the state-of-the-art accuracy on PASCAL VOC 2007, 2012 and MS COCO among all the train-from-scratch detectors and even performs better than several one-stage pretrained methods. Codes will be made publicly available at https://github.com/KimSoybean/ScratchDet
研究动机与目标
- 为解决微调 ImageNet 预训练模型所带来的目标偏差和架构限制等局限性,特别是在目标检测任务中。
- 实现从零开始训练目标检测器的鲁棒性,克服以往从零训练方法中常见的收敛问题。
- 通过消除对预训练分类网络的依赖,探索目标检测中架构设计的灵活性。
- 设计一种主干网络,通过减少下采样程度,保留原始图像中的空间信息。
- 在标准基准测试中,实现所有从零训练检测器中的最先进准确率。
提出的方法
- 利用批量归一化(BatchNorm)在训练过程中稳定梯度,从而实现从随机初始化的可靠收敛。
- 分析优化景观,识别出 BatchNorm 是实现从零训练成功的关键因素。
- 提出 Root-ResNet,一种下采样因子更低的主干网络,以保留输入图像中的高分辨率特征。
- 采用残差块设计,将主干的根特征图直接连接至最终层,增强特征复用。
- 通过大量消融实验研究下采样因子,以优化主干网络结构。
- 使用标准的单阶段检测头,从随机初始化端到端训练检测器。
实验结果
研究问题
- RQ1能否从零开始训练目标检测器,使其性能与微调 ImageNet 的模型相当?
- RQ2BatchNorm 在稳定从零训练检测器的训练过程中起到什么作用?
- RQ3在从零训练时,主干网络中的下采样因子如何影响检测准确率?
- RQ4像 Root-ResNet 这样的自定义主干网络是否能在无预训练的情况下提升特征表示能力?
- RQ5去除预训练偏差是否能带来更好的泛化能力或检测性能?
主要发现
- 在所有从零训练的检测器中,ScratchDet 在 PASCAL VOC 2007 和 2012 上实现了最先进(SOTA)的平均精度均值(mAP)。
- 在 MS COCO 上,ScratchDet 的性能优于多个使用 ImageNet 预训练的单阶段检测器。
- 所提出的 Root-ResNet 主干网络通过减少下采样,显著提升了特征表示能力,从而提高了检测准确率。
- BatchNorm 对于从随机初始化开始的稳定训练至关重要,使其在无预训练的情况下也能实现可靠收敛。
- 大量消融实验证实,降低下采样因子可提升性能,尤其在小目标检测方面表现更优。
- 该方法在无需任何 ImageNet 预训练的情况下取得了具有竞争力的结果,证明了从零开始端到端训练的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。