QUICK REVIEW

[论文解读] Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3

Petr Hurtík, Vojtěch Molek|arXiv (Cornell University)|May 27, 2020

Advanced Image and Video Retrieval Techniques被引用 25

一句话总结

Poly-YOLO 通过基于超列的颈部结构和阶梯式上采样，统一多尺度特征，实现单一高分辨率输出，消除标签重写和锚框错位问题。其在参数量减少 60% 的同时，mAP 相对提升 40%，并通过极坐标系下的可学习、尺寸无关边界多边形实现实时实例分割。

ABSTRACT

We present a new version of YOLO with better performance and extended with instance segmentation called Poly-YOLO. Poly-YOLO builds on the original ideas of YOLOv3 and removes two of its weaknesses: a large amount of rewritten labels and inefficient distribution of anchors. Poly-YOLO reduces the issues by aggregating features from a light SE-Darknet-53 backbone with a hypercolumn technique, using stairstep upsampling, and produces a single scale output with high resolution. In comparison with YOLOv3, Poly-YOLO has only 60% of its trainable parameters but improves mAP by a relative 40%. We also present Poly-YOLO lite with fewer parameters and a lower output resolution. It has the same precision as YOLOv3, but it is three times smaller and twice as fast, thus suitable for embedded devices. Finally, Poly-YOLO performs instance segmentation using bounding polygons. The network is trained to detect size-independent polygons defined on a polar grid. Vertices of each polygon are being predicted with their confidence, and therefore Poly-YOLO produces polygons with a varying number of vertices.

研究动机与目标

解决 YOLOv3 的两大主要缺陷：因分辨率粗糙导致的标签重写问题，以及锚框分布不准确问题。
在提升检测精度的同时，减少模型参数量与推理时间，以支持实时部署。
通过动态、尺寸无关的边界多边形，将 YOLOv3 扩展为支持实例分割。
通过极坐标多边形控制，实现精确且可解释的对象高亮，适用于智能汽车大灯等应用场景。
在中端 GPU 上实现实时推理性能，同时不损失精度或分割保真度。

提出的方法

提出一种基于超列的特征融合颈部结构，采用阶梯式上采样，融合来自轻量化 SE-Darknet-53 主干网络的多分辨率特征图。
用单一高分辨率输出张量替代 YOLOv3 的多尺度检测头，以消除标签重写并优化锚框分布。
设计一种新型实例分割头，通过相对坐标在极坐标网格中预测边界多边形的顶点。
训练网络以预测每个对象的可变数量顶点，实现尺寸无关的形状学习。
为每个顶点引入置信度分数，实现基于对象形状与检测置信度的动态多边形复杂度调整。
提出一种标签生成方案：将顶点映射至极坐标单元，当多个顶点落入同一单元时，优先考虑距离更远的顶点。

实验结果

研究问题

RQ1通过引入基于超列融合与阶梯式上采样的改进 YOLOv3 颈部结构，能否减少标签重写并改善锚框分布？
RQ2单一高分辨率输出张量是否能在减少参数量的同时，优于 YOLOv3 的多尺度检测头，提升检测精度？
RQ3能否在极坐标系中通过动态、尺寸无关的边界多边形有效实现实例分割？
RQ4所提方法是否能在中端 GPU 上保持实时推理速度，同时提升 mAP 并实现精确的对象控制？
RQ5基于多边形的分割方法是否能实现实用且可解释的应用，如智能大灯控制，而无需额外标注？

主要发现

Poly-YOLO 在 mAP 上相较 YOLOv3 提升 40% 的相对性能，同时将可训练参数量减少至原始模型的 60%。
在 Cityscapes 数据集上，模型在中端 GPU 上实现 22 FPS 的实时推理速度。
Poly-YOLO Lite 的 mAP 与 YOLOv3 相当，但模型大小仅为三分之一，推理速度为两倍，适用于嵌入式系统。
基于多边形的实例分割方法能够学习尺寸无关的形状，并根据对象动态调整顶点数量。
极坐标网格表示支持高效且可解释的控制，适用于智能大灯等应用，可精确控制特定对象部位（如挡风玻璃）的亮度调节。
当多个顶点落入同一极坐标单元时，可能出现非凸形状失真，但该问题源于标签生成过程，而非模型预测本身。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。