[论文解读] Automatic Pavement Crack Detection Based on Structured Prediction with the Convolutional Neural Network
基于 CNN 的结构化预测方法在像素级检测路面裂缝,能处理不平衡数据,在 CFD 与 AigleRN 数据集上优于若干基线,并探索了跨数据库的泛化。
Automated pavement crack detection is a challenging task that has been researched for decades due to the complicated pavement conditions in real world. In this paper, a supervised method based on deep learning is proposed, which has the capability of dealing with different pavement conditions. Specifically, a convolutional neural network (CNN) is used to learn the structure of the cracks from raw images, without any preprocessing. Small patches are extracted from crack images as inputs to generate a large training database, a CNN is trained and crack detection is modeled as a multi-label classification problem. Typically, crack pixels are much fewer than non-crack pixels. To deal with the problem with severely imbalanced data, a strategy with modifying the ratio of positive to negative samples is proposed. The method is tested on two public databases and compared with five existing methods. Experimental results show that it outperforms the other methods.
研究动机与目标
- 推动在多样化路面条件下的自动化、鲁棒裂缝检测。
- 直接从原始图像中学习裂缝结构,无需预处理。
- 将裂缝检测建模为每个图像patch的多标签结构化预测问题。
- 解决严重的类别不平衡,以在不牺牲精度的前提下提高裂缝像素的召回率。
提出的方法
- 使用以每个像素为中心的补丁(27x27)作为 CNN 输入,预测一个以中心为 (s=5) 的 5x5 结构。
- 使用 sigmoid 激活和交叉熵损失来建模多标签输出,并结合 L2 正则化与 dropout 以实现正则化。
- 为 3 通道(CFD)和 1 通道(AigleRN)输入分别训练独立的 CNN;通过补丁采样和均值-方差归一化进行数据增强。
- 在训练过程中调整正负样本比率(典型为 1:3)以缓解严重的类别不平衡。
- 通过对重叠预测求和并归一化,将逐像素输出聚合为整幅图像的概率图。
实验结果
研究问题
- RQ1通过 CNN 的结构化预测能否超越像素级 CNN 分类器在裂缝检测上的性能?
- RQ2输出结构大小(s)如何影响检测性能?
- RQ3不平衡的训练数据对裂缝检测有何影响,如何通过比率调整来改善结果?
- RQ4学习到的模型是否在不同路面数据集上具有泛化能力(跨数据库评估)?
主要发现
| 方法 | 精确率 | 召回率 | F1 |
|---|---|---|---|
| Canny | 0.4377 | 0.7307 | 0.4570 |
| Local thresholding | 0.7727 | 0.8274 | 0.7418 |
| CrackForest | 0.7466 | 0.9514 | 0.8318 |
| The proposed method | 0.9119 | 0.9481 | 0.9244 |
| Canny (AigleRN) | 0.1989 | 0.6753 | 0.2881 |
| Local thresholding (AigleRN) | 0.5329 | 0.9345 | 0.6670 |
| FFA | 0.7688 | 0.6812 | 0.6817 |
| MPS | 0.8263 | 0.8410 | 0.8195 |
| The proposed method (AigleRN) | 0.9178 | 0.8812 | 0.8954 |
- 提出的带结构化预测的 CNN 在 CFD 上的 F1 高于 Canny、局部阈值法和 CrackForest(F1=0.9244)。
- 在 CFD 上,该方法达到 Pr=0.9119, Re=0.9481。
- 在 AigleRN 上,达到 Pr=0.9178, Re=0.8812, F1=0.8954,优于 Canny、局部阈值、FFA 与 MPS。
- 结构化预测(s=5)在鲁棒性对噪声和生成连贯裂缝图方面优于像素级分类(s=1)。
- 在训练中调整正负采样比(CFD 的 R 在 2 到 5 之间,AigleRN 的 2–3)可在精度和召回之间改善 F1 的平衡。
- 跨数据库测试显示取舍:在 AigleRN 上训练的模型产生更细的裂缝、高精度但召回率较低;在 CFD 上训练的模型产生更粗的裂缝、召回率更高;混合训练可提升泛化性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。