[论文解读] Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3
Poly-YOLO 通过基于超列的颈部结构和阶梯式上采样,统一多尺度特征,实现单一高分辨率输出,消除标签重写和锚框错位问题。其在参数量减少 60% 的同时,mAP 相对提升 40%,并通过极坐标系下的可学习、尺寸无关边界多边形实现实时实例分割。
We present a new version of YOLO with better performance and extended with instance segmentation called Poly-YOLO. Poly-YOLO builds on the original ideas of YOLOv3 and removes two of its weaknesses: a large amount of rewritten labels and inefficient distribution of anchors. Poly-YOLO reduces the issues by aggregating features from a light SE-Darknet-53 backbone with a hypercolumn technique, using stairstep upsampling, and produces a single scale output with high resolution. In comparison with YOLOv3, Poly-YOLO has only 60% of its trainable parameters but improves mAP by a relative 40%. We also present Poly-YOLO lite with fewer parameters and a lower output resolution. It has the same precision as YOLOv3, but it is three times smaller and twice as fast, thus suitable for embedded devices. Finally, Poly-YOLO performs instance segmentation using bounding polygons. The network is trained to detect size-independent polygons defined on a polar grid. Vertices of each polygon are being predicted with their confidence, and therefore Poly-YOLO produces polygons with a varying number of vertices.
研究动机与目标
- 解决 YOLOv3 的两大主要缺陷:因分辨率粗糙导致的标签重写问题,以及锚框分布不准确问题。
- 在提升检测精度的同时,减少模型参数量与推理时间,以支持实时部署。
- 通过动态、尺寸无关的边界多边形,将 YOLOv3 扩展为支持实例分割。
- 通过极坐标多边形控制,实现精确且可解释的对象高亮,适用于智能汽车大灯等应用场景。
- 在中端 GPU 上实现实时推理性能,同时不损失精度或分割保真度。
提出的方法
- 提出一种基于超列的特征融合颈部结构,采用阶梯式上采样,融合来自轻量化 SE-Darknet-53 主干网络的多分辨率特征图。
- 用单一高分辨率输出张量替代 YOLOv3 的多尺度检测头,以消除标签重写并优化锚框分布。
- 设计一种新型实例分割头,通过相对坐标在极坐标网格中预测边界多边形的顶点。
- 训练网络以预测每个对象的可变数量顶点,实现尺寸无关的形状学习。
- 为每个顶点引入置信度分数,实现基于对象形状与检测置信度的动态多边形复杂度调整。
- 提出一种标签生成方案:将顶点映射至极坐标单元,当多个顶点落入同一单元时,优先考虑距离更远的顶点。
实验结果
研究问题
- RQ1通过引入基于超列融合与阶梯式上采样的改进 YOLOv3 颈部结构,能否减少标签重写并改善锚框分布?
- RQ2单一高分辨率输出张量是否能在减少参数量的同时,优于 YOLOv3 的多尺度检测头,提升检测精度?
- RQ3能否在极坐标系中通过动态、尺寸无关的边界多边形有效实现实例分割?
- RQ4所提方法是否能在中端 GPU 上保持实时推理速度,同时提升 mAP 并实现精确的对象控制?
- RQ5基于多边形的分割方法是否能实现实用且可解释的应用,如智能大灯控制,而无需额外标注?
主要发现
- Poly-YOLO 在 mAP 上相较 YOLOv3 提升 40% 的相对性能,同时将可训练参数量减少至原始模型的 60%。
- 在 Cityscapes 数据集上,模型在中端 GPU 上实现 22 FPS 的实时推理速度。
- Poly-YOLO Lite 的 mAP 与 YOLOv3 相当,但模型大小仅为三分之一,推理速度为两倍,适用于嵌入式系统。
- 基于多边形的实例分割方法能够学习尺寸无关的形状,并根据对象动态调整顶点数量。
- 极坐标网格表示支持高效且可解释的控制,适用于智能大灯等应用,可精确控制特定对象部位(如挡风玻璃)的亮度调节。
- 当多个顶点落入同一极坐标单元时,可能出现非凸形状失真,但该问题源于标签生成过程,而非模型预测本身。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。