[论文解读] Sewer-ML: A Multi-Label Sewer Defect Classification Dataset and Benchmark
介绍 Sewer-ML,这是一个公开的多标签下水道缺陷数据集,包含130万张图像,并提供基准和新颖的按类别重要性加权的 F2 指标(F2_CIW)用于评估。
Perhaps surprisingly sewerage infrastructure is one of the most costly infrastructures in modern society. Sewer pipes are manually inspected to determine whether the pipes are defective. However, this process is limited by the number of qualified inspectors and the time it takes to inspect a pipe. Automatization of this process is therefore of high interest. So far, the success of computer vision approaches for sewer defect classification has been limited when compared to the success in other fields mainly due to the lack of public datasets. To this end, in this work we present a large novel and publicly available multi-label classification dataset for image-based sewer defect classification called Sewer-ML. The Sewer-ML dataset consists of 1.3 million images annotated by professional sewer inspectors from three different utility companies across nine years. Together with the dataset, we also present a benchmark algorithm and a novel metric for assessing performance. The benchmark algorithm is a result of evaluating 12 state-of-the-art algorithms, six from the sewer defect classification domain and six from the multi-label classification domain, and combining the best performing algorithms. The novel metric is a class-importance weighted F2 score, $\ ext{F}2_{\ ext{CIW}}$, reflecting the economic impact of each class, used together with the normal pipe F1 score, $\ ext{F}1_{\ ext{Normal}}$. The benchmark algorithm achieves an $\ ext{F}2_{\ ext{CIW}}$ score of 55.11% and $\ ext{F}1_{\ ext{Normal}}$ score of 90.94%, leaving ample room for improvement on the Sewer-ML dataset. The code, models, and dataset are available at the project page https://vap.aau.dk/sewer-ml/
研究动机与目标
- 提供一个公开可得的、规模庞大的由专业检查员标注的多标签下水道缺陷数据集。
- 通过在 Sewer-ML 上评估最先进方法,实现公正、可重复的基准评估。
- 提出一种新颖的评估指标(F2_CIW),按经济影响加权类别重要性。
- 开发一个基准算法,结合下水道领域和通用多标签分类的洞见。
- 分析逐类别性能并确定缺陷检测改进的优先目标。
提出的方法
- 组装并标注来自三家公用事业公司(2011–2019)的75,618个标注视频中的130万张图像。
- 通过将管道内向后0.3米和向前1.0米的注释聚合来定义多标签真值。
- 引入基于缺陷经济影响的标准化类别重要性权重(CIW)。
- 评估12种最先进方法(六种下水道领域、六种通用多标签),并将表现最佳的组件组合成基准算法。
- 在统一的训练协议下训练端到端和两阶段分类器;采用带逆频权重的类别平衡损失。
- 提出 F2_CIW 指标并报告 Normal Pipes 的 F1_Normal,以评估缺陷辨识和缺失处理。
实验结果
研究问题
- RQ1Sewer-ML 数据集的规模与组成是什么,如何从下水道检查视频构建多标签真值?
- RQ2下水道缺陷分类的最新方法和通用多标签分类方法在 Sewer-ML 上的表现如何?
- RQ3将类别重要性(CIW)纳入 F2 评分的影响如何,所提出的 F2_CIW 指标在各类别上的表现如何?
- RQ4结合端到端和两阶段方法的基准算法是否能在 Sewer-ML 上超越单独模型?
- RQ5哪些缺陷类别最具挑战性,逐类别性能如何与经济影响相关?
主要发现
- 基准算法(两阶段,Xie 等人第一阶段配合 TResNet-L)在 F2_CIW 上达到 55.11%,F1_Normal 为 90.94%。
- 来自通用领域的多标签模型(如 TResNet-L)在大多数情况下取得比下水道领域模型更高的 F2_CIW,在测试集上为 54.75%。
- 端到端方法通常在预测特定缺陷类别方面表现出色,而两阶段方法在判断是否存在任何缺陷类别方面表现出众。
- Sewer-ML 数据集包含 1.3 百万张图像,覆盖 17 个标注类别,正常观测 690,722 次,缺陷观测 609,479 次。
- 基于 CIW 的加权显示一些高影响类别的 F2 分数较低,表明在经济重要缺陷上仍有改进空间。
- 逐类别分析显示高 CIW 类别 OS 和 RB 是得分较低的缺陷之一,表明在这些方面的有针对性改进可能带来显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。