[论文解读] DSSD : Deconvolutional Single Shot Detector
简要结论:DSSD 在 SSD 中加入带 Residual-101 的解卷积编码-解码上下文,在 VOC2007 上达到 81.5% mAP,在 COCO 上达到 33.2% mAP,超过了先前的单网络检测器。
The main contribution of this paper is an approach for introducing additional context into state-of-the-art general object detection. To achieve this we first combine a state-of-the-art classifier (Residual-101[14]) with a fast detection framework (SSD[18]). We then augment SSD+Residual-101 with deconvolution layers to introduce additional large-scale context in object detection and improve accuracy, especially for small objects, calling our resulting system DSSD for deconvolutional single shot detector. While these two contributions are easily described at a high-level, a naive implementation does not succeed. Instead we show that carefully adding additional stages of learned transformations, specifically a module for feed-forward connections in deconvolution and a new output module, enables this new approach and forms a potential way forward for further detection research. Results are shown on both PASCAL VOC and COCO detection. Our DSSD with $513 imes 513$ input achieves 81.5% mAP on VOC2007 test, 80.0% mAP on VOC2012 test, and 33.2% mAP on COCO, outperforming a state-of-the-art method R-FCN[3] on each dataset.
研究动机与目标
- 通过注入更大尺度的上下文信息来提升通用目标检测的动机。
- 研究在SSD中用更深的骨干网络(Residual-101)替换 VGG 以提升准确性。
- 开发一个基于解卷积的 hourglass 模块,将语义上下文传递给后续的预测层。
- 引入预测模块和解卷积模块以稳定训练并改善小目标检测。
提出的方法
- 将 VGG 替换为 Residual-101 作为 SSD 的基础网络,以提升特征质量。
- 添加带残差块的预测模块以增强预测层并稳定训练。
- 在 SSD 之后连接解卷积层,形成不对称的编码-解码器(hourglass)网络。
- 引入带有批量归一化和可学习上采样的解卷积模块,通过逐元素乘积进行上下文融合。
- 使用跳跃连接将高级上下文传递到更高分辨率的特征图,形成 DSSD。
- 分两阶段训练:先冻结 SSD 并训练解卷积侧,再对整个网络进行微调;采用类似 SSD 的数据增强并为默认框调整纵横比。
实验结果
研究问题
- RQ1在 SSD 中加入基于解卷积的编码-解码器(hourglass)结构是否能提高准确性,尤其是对小目标?
- RQ2用 Residual-101 替换 VGG 并引入一个专用的预测模块是否能在不牺牲速度的前提下提高 VOC/COCO 的检测性能?
- RQ3在解卷积模块中,不同的特征融合策略(求和 vs 逐元素乘积)对检测精度的影响是什么?
- RQ4训练策略(两阶段训练:冻结骨干网络后再进行全量微调)如何影响收敛性和最终性能?
主要发现
- DSSD 与 Residual-101 和 deconvolution 层在 VOC 和 COCO 上达到比 SSD 更高的准确性,并且与最先进的方法相竞争。
- 预测模块和解卷积模块显著提升了 mAP,尤其是对小目标和情境相关类别。
- 在解卷积模块中的逐元素乘积融合在所测试的融合方法中带来最佳精度。
- 在 VOC2007 上,输入为 513 时的 DSSD 实现 81.5% mAP,超过了诸如 R-FCN 和 SSD 变体等先前的单网络检测器。
- 在 VOC2012 上,DSSD 达到 80.0% mAP,在 COCO 上,DSSD 513 达到 33.2% mAP,显示出强大的跨数据集性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。