[论文解读] Water level prediction from social media images with a multi-task ranking approach
该论文提出了一种多任务深度学习方法,通过结合回归损失与成对排序损失,从社交媒体图像中预测水位,显著减少了对昂贵像素级精确标注的需求。通过利用易于获取的图像对之间水位的相对排序信息,该方法在包含8,145张图像的新数据集上实现了约11厘米的均方根误差,实现了仅需极少人工标注的近实时洪水制图。
Floods are among the most frequent and catastrophic natural disasters and affect millions of people worldwide. It is important to create accurate flood maps to plan (offline) and conduct (real-time) flood mitigation and flood rescue operations. Arguably, images collected from social media can provide useful information for that task, which would otherwise be unavailable. We introduce a computer vision system that estimates water depth from social media images taken during flooding events, in order to build flood maps in (near) real-time. We propose a multi-task (deep) learning approach, where a model is trained using both a regression and a pairwise ranking loss. Our approach is motivated by the observation that a main bottleneck for image-based flood level estimation is training data: it is diffcult and requires a lot of effort to annotate uncontrolled images with the correct water depth. We demonstrate how to effciently learn a predictor from a small set of annotated water levels and a larger set of weaker annotations that only indicate in which of two images the water level is higher, and are much easier to obtain. Moreover, we provide a new dataset, named DeepFlood, with 8145 annotated ground-level images, and show that the proposed multi-task approach can predict the water level from a single, crowd-sourced image with ~11 cm root mean square error.
研究动机与目标
- 解决洪水图像中水位估计任务因训练数据标注稀缺而阻碍深度学习应用的问题。
- 通过使用更弱但更具可扩展性的监督信号,减少对昂贵像素级实例分割标注的依赖。
- 通过利用众包社交媒体图像并仅需极少人工标注,实现近实时洪水制图。
- 证明成对图像排序(即哪张图像水位更高)作为监督信号,比绝对深度回归更具效率和可扩展性。
- 构建一个新的基准数据集DeepFlood,以支持基于图像的洪水水位估计研究。
提出的方法
- 采用多任务学习框架,联合优化回归(绝对水深)与成对排序(两幅图像中哪张水位更高)任务,训练深度神经网络。
- 使用类似Siamese的网络结构处理图像对,预测相对水位顺序,并采用对比损失函数以确保排序正确。
- 将回归损失(MSE)与排序损失(对比损失)结合为单一目标函数,联合训练模型。
- 利用大量弱标签图像对(仅知相对水位)与少量具有绝对深度值的强标签图像联合训练。
- 采用数据增强与迁移学习技术以提升泛化能力,尤其在罕见或复杂洪水场景下表现更优。
- 实施多折交叉验证策略,以确保模型性能评估的稳健性。
实验结果
研究问题
- RQ1成对图像排序能否作为有效的弱监督信号,以提升从社交媒体图像中进行水位回归的性能?
- RQ2与完全监督回归相比,引入排序监督在性能与标注效率方面有何差异?
- RQ3在仅使用极少绝对标注与大量相对标注的情况下,模型在未见洪水场景中的泛化能力如何?
- RQ4用于排序监督的图像对数量变化对模型性能有何影响?
- RQ5与基于实例分割的方法相比,该方法是否能在显著降低标注成本的前提下实现具有竞争力的精度?
主要发现
- 所提出的多任务模型(Reg+Rank)在测试集上实现了11.3厘米的均方根误差,优于仅回归的基线模型及先前工作的分类方法。
- 仅使用100万张图像对进行排序监督,即显著降低误差,相较于仅回归的基线模型,证明了弱监督的有效性。
- 该模型在多种多样的洪水场景中泛化能力出色,包括人员在船上或水位极端等挑战性情况,其表现优于以往方法。
- 消融实验表明,随着图像对数量增加,性能提升缓慢,表明即使100万张图像对已提供强大正则化效果,且图像对之间的冗余性限制了进一步增益。
- 该方法显著降低了标注工作量:标注图像对之间的相对水位远快于像素级分割,使通过众包实现可扩展的数据采集成为可能。
- 新构建的DeepFlood数据集包含8,145张带真实标注的图像,为未来基于图像的洪水水位估计研究提供了宝贵基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。