[论文解读] Detecting Curve Text in the Wild: New Dataset and New Solution
本论文引入 CTW1500——一个曲线文本数据集,以及一个基于多边形的曲线文本检测器(CTD),采用一个递归偏移连接(TLOC),实现对曲线文本的直接检测,且优于现有方法。
Scene text detection has been made great progress in recent years. The detection manners are evolving from axis-aligned rectangle to rotated rectangle and further to quadrangle. However, current datasets contain very little curve text, which can be widely observed in scene images such as signboard, product name and so on. To raise the concerns of reading curve text in the wild, in this paper, we construct a curve text dataset named CTW1500, which includes over 10k text annotations in 1,500 images (1000 for training and 500 for testing). Based on this dataset, we pioneering propose a polygon based curve text detector (CTD) which can directly detect curve text without empirical combination. Moreover, by seamlessly integrating the recurrent transverse and longitudinal offset connection (TLOC), the proposed method can be end-to-end trainable to learn the inherent connection among the position offsets. This allows the CTD to explore context information instead of predicting points independently, resulting in more smooth and accurate detection. We also propose two simple but effective post-processing methods named non-polygon suppress (NPS) and polygonal non-maximum suppression (PNMS) to further improve the detection accuracy. Furthermore, the proposed approach in this paper is designed in an universal manner, which can also be trained with rectangular or quadrilateral bounding boxes without extra efforts. Experimental results on CTW-1500 demonstrate our method with only a light backbone can outperform state-of-the-art methods with a large margin. By evaluating only in the curve or non-curve subset, the CTD + TLOC can still achieve the best results. Code is available at https://github.com/Yuliang-Liu/Curve-Text-Detector.
研究动机与目标
- 激发对野外曲线形文本的研究兴趣并解决数据集稀缺问题。
- 创建 CTW1500,一个带多边形注释的曲线文本数据集,以简化标注。
- 提出一个直接的基于多边形的检测器(CTD),能够检测曲线文本而无需事后分组。
- 引入 TLOC,以捕捉点偏移之间的序列上下文,实现更平滑的定位。
- 提供通用训练,使其可适用于矩形、四边形或曲线注释。
提出的方法
- 提议 CTD,一个基于多边形的文本检测器,回归 14 个曲线点以及外接矩形参数。
- 将回归拆分为宽度和高度偏移以提高训练稳定性。
- 使用 BLSTM 附加递归横向与纵向偏移连接(TLOC),建模点偏移之间的序列上下文。
- 使用 PSROIPooling 生成每点偏移特征并输入到 TLOC 模块以进行序列预测。
- 采用多任务损失进行训练,结合分类和定位项,对候选框/提案。
- 应用两步后处理:非多边形抑制(NPS)和多边形非极大抑制(PNMS)。
实验结果
研究问题
- RQ1一个基于多边形的检测器是否可以直接定位曲线文本,而无需从单独检测中组装组件?
- RQ2引入递归偏移连接(TLOC)是否能够提升曲线文本的定位精度?
- RQ3聚焦曲线的后处理步骤(NPS、PNMS)对曲线文本和非曲线文本的检测性能有何影响?
- RQ4该方法是否足够通用,能够在不额外标注工作的情况下处理曲线、矩形和四边形文本注释?
主要发现
- CTW1500 包含 1,500 张图像,10,751 个边界框,其中包含 3,530 个曲线框。
- CTD(无 TLOC)在完整 CTW1500 测试集上实现了 69.5 的 Hmean 的最先进性能;CTD 带 TLOC 达到 73.4。
- CTD+TLOC 显著提升曲线文本检测,在曲线子集上达到 77.1 R、57.1 P、65.6 H 的表现,帧率为 13.3 FPS。
- PNMS 在各实验中始终优于 NMS;引入 TLOC 在 Hmean 上带来最大的增益(约 4 个百分点)。
- CTD+TLOC 在 CTW1500 的结果上优于若干基线(SegLink、SWT、CTPN、EAST、DMPNet),尤其在曲线子集上(如 Hmean 提升约 28%)。
- 该方法保持快速(13–15 FPS),可直接处理曲线文本并且可推广到非曲线文本子集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。