[论文解读] Fourier Contour Embedding for Arbitrary-Shaped Text Detection
本文介绍 Fourier Contour Embedding(FCE),用紧凑的傅里叶签名表示任意形状的文本轮廓,并构建 FCENet 以预测这些签名并通过反傅里叶变换重建轮廓,实现端到端的任意形状文本检测。
One of the main challenges for arbitrary-shaped text detection is to design a good text instance representation that allows networks to learn diverse text geometry variances. Most of existing methods model text instances in image spatial domain via masks or contour point sequences in the Cartesian or the polar coordinate system. However, the mask representation might lead to expensive post-processing, while the point sequence one may have limited capability to model texts with highly-curved shapes. To tackle these problems, we model text instances in the Fourier domain and propose one novel Fourier Contour Embedding (FCE) method to represent arbitrary shaped text contours as compact signatures. We further construct FCENet with a backbone, feature pyramid networks (FPN) and a simple post-processing with the Inverse Fourier Transformation (IFT) and Non-Maximum Suppression (NMS). Different from previous methods, FCENet first predicts compact Fourier signatures of text instances, and then reconstructs text contours via IFT and NMS during test. Extensive experiments demonstrate that FCE is accurate and robust to fit contours of scene texts even with highly-curved shapes, and also validate the effectiveness and the good generalization of FCENet for arbitrary-shaped text detection. Furthermore, experimental results show that our FCENet is superior to the state-of-the-art (SOTA) methods on CTW1500 and Total-Text, especially on challenging highly-curved text subset.
研究动机与目标
- 解决任意文本检测中高度曲线文本形状表示的挑战。
- 提出一种紧凑、灵活的轮廓表示,能够在不同真实点数的数据集上泛化。
- 通过在推理阶段预测傅里叶签名并重建轮廓,使端到端的检测可训练。
- 在曲线文本基准 CTW1500 与 Total-Text 上展示出最先进或具有竞争力的结果。
提出的方法
- 用复值函数在傅里叶域表示文本轮廓,并使用固定数量的低频分量(K)。
- 将轮廓点重新采样到固定的 N(例如 N=400),设定唯一起点、顺时针采样和匀速,以获得稳定的傅里叶签名。
- 通过离散傅里叶变换将重新采样的轮廓点嵌入到傅里叶系数 c_k,形成紧凑的傅里叶签名向量 [c_{-K}, ..., c_{K}]。
- 使用 ResNet50-DCN 主干和 FPN 训练 FCENet,预测每个像素的文本区域(TR)和文本中心区域(TCR)掩码及傅里叶签名向量;在推理阶段使用反傅里叶变换(IFT)重建轮廓,并进行 NMS。
- 损失函数将分类(TR 和 TCR)与回归项结合起来,在应用 IFT 之后,使重建的 ground-truth 轮廓与预测轮廓之间的 L1 差距最小化(方程6)。
- 由于固定的重采样,允许在不同数据集之间比较傅里叶系数,从而 CTW1500、Total-Text 等数据集之间的接受性更好。
实验结果
研究问题
- RQ1傅里叶域轮廓表示是否能在不需要复杂后处理的情况下提供对任意形状文本的紧凑、灵活描述?
- RQ2端到端预测傅里叶签名是否能通过 IFT 对高度曲折的文本实现准确的轮廓重建?
- RQ3FCENet 相较于在曲线文本基准(CTW1500、Total-Text)和多方向数据集(ICDAR2015)上的方法有何对比?
- RQ4文本中心区域损失和所提出的轮廓回归损失等组件对总体性能有何影响?
主要发现
| 方法 | 论文 | 扩展 | CTW1500_R | CTW1500_P | CTW1500_F | Total-Text_R | Total-Text_P | Total-Text_F | ICDAR2015_R | ICDAR2015_P | ICDAR2015_F |
|---|---|---|---|---|---|---|---|---|---|---|---|
| TextSnake | ECCV’18 | surd | 85.3 | 67.9 | 75.6 | 74.5 | 82.7 | 78.4 | 80.4 | 84.9 | 82.6 |
| SegLink++ | PR’19 | surd | 79.8 | 82.8 | 81.3 | 80.9 | 82.1 | 81.5 | 80.3 | 83.7 | 82.0 |
| SAEmbed | CVPR’19 | surd | 77.8 | 82.7 | 80.1 | - | - | - | 85.0 | 88.3 | 86.6 |
| CRAFT | CVPR’19 | surd | 81.1 | 86.0 | 83.5 | 79.9 | 87.6 | 83.6 | 84.3 | 89.8 | 86.9 |
| PAN (no Ext) | ICCV’19 | × | 77.7 | 84.6 | 81.0 | 79.4 | 88.0 | 83.5 | 77.8 | 82.9 | 80.3 |
| PAN (with Ext) | ICCV’19 | surd | 81.2 | 86.4 | 83.7 | 81.0 | 89.3 | 85.0 | 81.9 | 84.0 | 82.9 |
| PSENet | CVPR’19 | × | 75.6 | 80.6 | 78.0 | 75.1 | 81.8 | 78.3 | 79.7 | 81.5 | 80.6 |
| PSENet | CVPR’19 | surd | 79.7 | 84.8 | 82.2 | 84.0 | 78.0 | 80.9 | 84.5 | 86.9 | 85.7 |
| LOMO | CVPR’19 | surd | 76.5 | 85.7 | 80.8 | 79.3 | 87.6 | 83.3 | 83.5 | 91.3 | 87.2 |
| DB | AAA I’20 | surd | 80.2 | 86.9 | 83.4 | 82.5 | 87.1 | 84.7 | 83.2 | 91.8 | 87.3 |
| Boundary | AAA I’20 | surd | - | - | - | 83.5 | 85.2 | 84.3 | 88.1 | 82.2 | 85.0 |
| DRRG | CVPR’20 | surd | 83.0 | 85.9 | 84.5 | 84.9 | 86.5 | 85.7 | 84.7 | 88.5 | 86.6 |
| ContourNet | CVPR’20 | × | 84.1 | 83.7 | 83.9 | 83.9 | 86.9 | 85.4 | 86.1 | 87.6 | 86.9 |
| TextRay | MM’20 | surd | 80.4 | 82.8 | 81.6 | 77.9 | 83.5 | 80.6 | - | - | - |
| ABCNet | CVPR’20 | surd | 78.5 | 84.4 | 81.4 | 81.3 | 87.9 | 84.5 | - | - | - |
| FCENet† | Ours | × | 80.7 | 85.7 | 83.1 | 79.8 | 87.4 | 83.4 | 84.2 | 85.1 | 84.6 |
| FCENet | Ours | × | 83.4 | 87.6 | 85.5 | 82.5 | 89.3 | 85.8 | 82.6 | 90.1 | 86.2 |
- FCE 可以用少量低频分量(K=5,通常就足够)来近似任意闭合轮廓。
- FCENet 在 CTW1500 与 Total-Text 上达到与最先进方法相当的或竞争性的结果,在高度曲线文本子集上表现出色。
- 在消融实验中,文本中心区域损失和提出的基于轮廓的回归损失显著提升了结果(尤其在 CTW1500 和 Total-Text 上)。
- FCENet 在减少训练数据时仍保持稳健性能,表明具有良好的泛化能力。
- 在不使用额外数据的情况下,FCENet 在 CTW1500 上达到 83.4% R, 87.6% P, 85.5% F,在 Total-Text 上达到 82.5% R, 89.3% P, 85.8% F;在增强设置下,CTW1500 得到 83.4/87.6/85.5;FCENet†(更大的主干)在基线设置下在 CTW1500 上达到 80.7/85.7/83.1,在 Total-Text 上达到 79.8/87.4/83.4。按表1。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。