QUICK REVIEW

[论文解读] Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity

Rémi Petitpierre|arXiv (Cornell University)|Jan 1, 2020

Advanced Image and Video Retrieval Techniques参考文献 91被引用 6

一句话总结

本文提出了一种基于深度卷积神经网络的新颖语义分割模型，用于历史城市地图的分析，利用来自巴黎及全球城市的635份标注地图的多样化语料库。该模型在巴黎数据集上实现了0.8905的平均交并比（mIoU），在全球语料库上实现了0.8055的mIoU，达到当前最优性能，展现出对图示多样性高度鲁棒，并引入了一种置信度预测方法以支持主动学习。

ABSTRACT

In this work, we present a new semantic segmentation model for historical city maps that surpasses the state of the art in terms of flexibility and performance. Research in automatic map processing is largely focused on homogeneous corpora or even individual maps, leading to inflexible algorithms. Recently, convolutional neural networks have opened new perspectives for the development of more generic tools. Based on two new maps corpora, the first one centered on Paris and the second one gathering cities from all over the world, we propose a method for operationalizing the figuration based on traditional computer vision algorithms that allows large-scale quantitative analysis. In a second step, we propose a semantic segmentation model based on neural networks and implement several improvements. Finally, we analyze the impact of map figuration on segmentation performance and evaluate future ways to improve the representational flexibility of neural networks. To conclude, we show that these networks are able to semantically segment map data of a very large figurative diversity with efficiency.

研究动机与目标

开发一种灵活且高性能的神经网络模型，用于跨多样化制图传统的历史城市地图语义分割。
探究地图表现形式中的图示多样性如何影响卷积神经网络的性能与泛化能力。
构建一个标准化的多类别标注本体论，以支持跨文化与制图背景的训练与基准测试。
评估提升模型鲁棒性与表征灵活性的方法，包括主动学习与课程学习。
开发一种置信度预测机制，用于识别低资源地图区域中的不确定预测。

提出的方法

构建了两个标注地图语料库：330份巴黎地图与305份全球历史地图，共635个训练图像块，采用五类语义本体论。
提出一种度量方法，通过多模态分布清晰度量化图示多样性，从而实现对不同语料库间地图表现差异的比较。
采用编码器为ResNet101的全卷积神经网络（FCN），结合帧预分割与ImageNet的迁移学习。
实施k折交叉验证，并利用模型自身输出的集成不确定性估计实现置信度预测。
探索主动学习、课程学习以及受神经调节启发的技术，以提升样本效率与泛化能力。
在巴黎与全球语料库的三类与五类分割任务上，以mIoU为基准评估性能。

实验结果

研究问题

RQ1历史城市地图中的图示多样性在多大程度上影响卷积神经网络在语义分割中的性能？
RQ2如何对地图语料库中的图示多样性进行定量操作化与测量？
RQ3训练后的神经网络在跨文化与跨时期制图表现高度变异的情况下，其鲁棒性如何？
RQ4哪些策略可增强CNN在历史地图分割中表征灵活性与泛化能力？
RQ5如何为未见地图图像块预测置信度，以指导主动学习？

主要发现

在巴黎语料库的三类分割任务中，模型实现了0.8905的平均交并比（mIoU），显著优于以往基准。
在全球语料库的三类任务中，mIoU达到0.8055，表明尽管存在高度图示多样性，仍具备强大的跨文化泛化能力。
在更复杂的五类分割任务中，模型在巴黎语料库上实现了0.6363的mIoU，在全球语料库上为0.5595，表明在细粒度类别下仍保持优异性能。
所提出的图示多样性度量显示，巴黎与全球语料库的表征多样性显著高于现有可比数据集。
神经网络对图示差异表现出高度鲁棒性，表明其不仅依赖于原始视觉外观，还能整合形态、拓扑与语义线索。
置信度预测方法成功识别出不确定预测，有效支持主动学习，并减轻了低性能区域的标注负担。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。