[论文解读] Sliding Line Point Regression for Shape Robust Scene Text Detection
本文提出了一种新型方法——滑动线点回归(Sliding Line Point Regression, SLPR),通过在文本边界上沿滑动的水平和垂直线上回归点,实现对任意形状和弯曲场景文本的检测。通过利用矩形先验并仅对每个点回归一个坐标,SLPR 减少了参数量并提高了鲁棒性,在 ICDAR2015 上达到最先进性能,并在 CTW1500 上取得最先进结果,且无需使用 LSTMs。
Traditional text detection methods mostly focus on quadrangle text. In this study we propose a novel method named sliding line point regression (SLPR) in order to detect arbitrary-shape text in natural scene. SLPR regresses multiple points on the edge of text line and then utilizes these points to sketch the outlines of the text. The proposed SLPR can be adapted to many object detection architectures such as Faster R-CNN and R-FCN. Specifically, we first generate the smallest rectangular box including the text with region proposal network (RPN), then isometrically regress the points on the edge of text by using the vertically and horizontally sliding lines. To make full use of information and reduce redundancy, we calculate x-coordinate or y-coordinate of target point by the rectangular box position, and just regress the remaining y-coordinate or x-coordinate. Accordingly we can not only reduce the parameters of system, but also restrain the points which will generate more regular polygon. Our approach achieved competitive results on traditional ICDAR2015 Incidental Scene Text benchmark and curve text detection dataset CTW1500.
研究动机与目标
- 为解决现有基于四边形的方法在准确表示任意方向和弯曲文本时面临的挑战。
- 通过利用边界矩形的几何约束,仅对每个点回归一个坐标,以减少模型复杂度和冗余。
- 通过滑动线规则强制回归点之间的结构关系,提升检测鲁棒性和多边形规则性。
- 在不依赖复杂循环模块(如 LSTMs)的情况下,实现在标准和弯曲文本检测基准上的最先进性能。
- 实现与标准两阶段检测器(如 Faster R-CNN 和 R-FCN)的兼容性,以支持更广泛的应用部署。
提出的方法
- SLPR 使用区域建议网络(RPN)生成文本行的轴对齐最小包围矩形。
- 引入滑动线机制:垂直线沿矩形的水平跨度滑动,水平线沿矩形的垂直跨度滑动,以在文本边界上生成候选点。
- 对每个点,仅回归一个坐标(x 或 y),而另一个坐标通过矩形位置计算得出,以减少冗余。
- 采用损失函数,根据宽高比动态调整回归损失权重,使用 $\lambda_{hw} = 4$ 和 $k = 0.8$ 平衡水平与垂直样本。
- 通过基于点的恢复策略(PLS)结合矩形和回归点重建多边形,避免使用 RNN 或注意力模块。
- 该框架兼容 Faster R-CNN 和 R-FCN,使用 ResNet-50 作为主干网络,并采用标准训练设置。
实验结果
研究问题
- RQ1基于滑动线的简单可微回归策略是否能提升对任意形状和弯曲文本的检测性能?
- RQ2利用边界矩形的几何约束是否能在不损失精度的前提下减少回归数量?
- RQ3通过结构化点回归替代 RNN 或注意力模块,是否能带来在弯曲文本上更好的泛化能力和性能表现?
- RQ4所提出方法是否能在不使用数据增强的情况下,实现在标准和弯曲文本基准上的最先进结果?
- RQ5非极大值抑制(NMS)阈值的选择如何影响在具有不同文本形状的数据集上的性能表现?
主要发现
- 在 ICDAR2015 附带场景文本基准上,SLPR 达到了 86.7% 的 Hmean,表现具有竞争力,优于多项先前方法。
- 在 CTW1500 弯曲文本数据集上,SLPR 的 Hmean 达到 74.8%,比 CTD+TLOC 方法高出 5.3 个百分点。
- 即使未使用基于 LSTM 的 TLOC 模块,SLPR 仍比 CTD+TLOC 提升了 1.4% 的 Hmean,证明了其几何设计的有效性。
- 使用 PNMS(概率性 NMS)在 ICDAR2015 上略优于标准 NMS,但在 CTW1500 上,标准 NMS(IoU 阈值为 0.3)表现最佳。
- 多尺度推理使 ICDAR2015 上的 Hmean 提升约 1%,证实了尺度自适应的优势。
- 消融实验表明,使用所有点进行多边形恢复(BHVP)优于仅使用长边点(PLS),尽管 PLS 已足以实现优异性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。