QUICK REVIEW

[论文解读] Material Recognition for Automated Progress Monitoring using Deep Learning Methods

Hadi Mahami, Navid Ghassemi|arXiv (Cornell University)|Jun 29, 2020

Infrastructure Maintenance and Monitoring参考文献 43被引用 26

一句话总结

该论文提出了一种基于深度学习的材料识别系统，采用预训练的卷积神经网络（VGG16、ResNet、DenseNet、NASNet-Mobile）实现建筑施工中自动化进度监控的高精度识别。该方法在包含1,231张高质量图像的公开数据集上进行训练，涵盖11种材料类别，分类准确率最高达97.35%，对光照变化和相机角度具有鲁棒性，显著优于以往在施工监控中材料识别的研究成果。

ABSTRACT

Recent advancements in Artificial intelligence, especially deep learning, has changed many fields irreversibly by introducing state of the art methods for automation. Construction monitoring has not been an exception; as a part of construction monitoring systems, material classification and recognition have drawn the attention of deep learning and machine vision researchers. However, to create production-ready systems, there is still a long path to cover. Real-world problems such as varying illuminations and reaching acceptable accuracies need to be addressed in order to create robust systems. In this paper, we have addressed these issues and reached a state of the art performance, i.e., 97.35% accuracy rate for this task. Also, a new dataset containing 1231 images of 11 classes taken from several construction sites is gathered and publicly published to help other researchers in this field.

研究动机与目标

开发一种鲁棒的基于深度学习的施工材料自动识别方法，以提高进度监控的准确性。
解决现有自动化施工监控系统中准确率低和误差传播的问题。
评估最先进CNN架构在不同环境条件（如光照和相机角度）下的性能表现。
提供一个公开可获取的、高质量的1,231张施工材料图像数据集，以支持该领域未来的研究。
研究数据增强技术，以缓解小规模施工材料分类任务中的过拟合问题。

提出的方法

在自建的1,231张来自真实施工现场的高分辨率图像数据集上，训练多个预训练深度神经网络（VGG16、ResNet、DenseNet、NASNet-Mobile）。
采用数据增强技术，包括旋转、翻转和亮度调整，以提高模型泛化能力并减少过拟合。
通过在11类施工材料数据集上微调预训练模型，利用迁移学习技术，在数据量有限的情况下提升性能。
使用光照条件受控的图像子集，评估模型在不同光照条件下的性能表现。
在不同硬件平台（Raspberry Pi 3、iPhone 11 Pro、Huawei P30 lite、Samsung Galaxy A50）上比较推理时间与准确率，评估实时部署的可行性。
通过GitHub公开发布数据集，以支持可复现性及施工材料识别领域的进一步研究。

实验结果

研究问题

RQ1最先进深度学习模型在真实工地图像上对施工材料的分类准确率如何？
RQ2在不同光照和相机角度条件下，不同CNN架构（VGG16、ResNet、DenseNet、NASNet-Mobile）的表现如何？
RQ3数据增强在小规模施工材料数据集中在多大程度上能提升泛化能力并减少过拟合？
RQ4与以往自动化施工进度监控方法相比，所提出方法在准确率和推理速度方面表现如何？
RQ5所提出的系统能否在低成本嵌入式设备（如Raspberry Pi 3）上有效部署，实现实时监控？

主要发现

VGG16模型在完整数据集上达到最高的分类准确率97.35%，优于其他模型。
ResNet模型在低光照条件下仅使用每类5张图像时仍达到90.48%的准确率，表现出强鲁棒性。
NASNet-Mobile模型在5张图像子集上达到89.95%的准确率，表明其在数据有限时仍具优异性能。
DenseNet模型在完整数据集上达到96.30%的准确率，表现出极强的泛化能力，误分类极少。
混淆矩阵显示各类别间分离度高，多数材料被正确分类（例如：砖块27/27，沙子22/22）。
系统对光照和相机角度变化具有鲁棒性，在不同环境条件下均保持一致的性能表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。