QUICK REVIEW

[論文レビュー] Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity

Rémi Petitpierre|arXiv (Cornell University)|Jan 1, 2020

Advanced Image and Video Retrieval Techniques参考文献 91被引用数 6

ひとこと要約

本稿では、パリおよび世界の都市から構成される635枚のアノテート済み地図の多様なコーパスを活用して、深層畳み込みニューラルネットワークを用いた歴史的都市地図向けの新しい意味的セグメンテーションモデルを提案する。パリではmIoUが0.8905、グローバルコーパスでは0.8055のSOTA性能を達成し、図像的多様性に対して高い耐性を示し、アクティブラーニングを可能にする信頼性予測手法を導入している。

ABSTRACT

In this work, we present a new semantic segmentation model for historical city maps that surpasses the state of the art in terms of flexibility and performance. Research in automatic map processing is largely focused on homogeneous corpora or even individual maps, leading to inflexible algorithms. Recently, convolutional neural networks have opened new perspectives for the development of more generic tools. Based on two new maps corpora, the first one centered on Paris and the second one gathering cities from all over the world, we propose a method for operationalizing the figuration based on traditional computer vision algorithms that allows large-scale quantitative analysis. In a second step, we propose a semantic segmentation model based on neural networks and implement several improvements. Finally, we analyze the impact of map figuration on segmentation performance and evaluate future ways to improve the representational flexibility of neural networks. To conclude, we show that these networks are able to semantically segment map data of a very large figurative diversity with efficiency.

研究の動機と目的

多様な地図的伝統にわたる歴史的都市地図の意味的セグメンテーションに適した柔軟で高性能なニューラルネットワークモデルの開発。
地図表現における図像的多様性がCNNの性能および一般化能力に与える影響の調査。
文化的および地図的文脈に跨る学習とベンチマークのための標準化されたマルチクラスアノテーションオントロジーの構築。
モデルの耐性および表現の柔軟性を向上させる手法の評価、特にアクティブラーニングおよびカリキュラムラーニングを含む。
リソースが限られた地図領域における不確実な予測を特定するための信頼性予測メカニズムの開発。

提案手法

パリ地図330枚とグローバル歴史的地図305枚の2つのアノテート済み地図コーパスを構築し、合計635枚のトレーニングパッチを5クラスの意味的オントロジーでアノテートした。
マルチモodal分布の鋭さを用いて図像的多様性を定量化する指標を提案し、コーパス間での地図表現のばらつきを比較可能にした。
ResNet101エンコーダーを搭載した完全畳み込みニューラルネットワーク（FCN）を適応し、フレーム事前のセグメンテーションとImageNetからの転移学習を統合した。
k分割交差検証と、モデル自身の出力から得られるアンサンブル不確実性推定値を用いた信頼性予測を実装した。
サンプル効率性と一般化性能の向上を図るため、アクティブラーニング、カリキュラムラーニング、およびニューロモジュレーションにインspiredした手法を検討した。
パリおよびグローバルコーパスにおける3クラスおよび5クラスのセグメンテーションタスクにおいて、mIoUを用いて性能をベンチマーク化した。

実験結果

リサーチクエスチョン

RQ1歴史的都市地図における図像的多様性は、意味的セグメンテーションにおける畳み込みニューラルネットワークの性能にどのように影響を与えるか？
RQ2地図コーパス内の図像的多様性を定量的に操作可能かつ測定可能に定式化できるか？
RQ3文化的および時代的要因による地図表現の変動が著しい状況下でも、トレーニング済みのニューラルネットワークはどの程度耐性を示すか？
RQ4歴史的地図セグメンテーションにおけるCNNの表現の柔軟性および一般化能力を向上させる戦略は何か？
RQ5未知の地図パッチにおける予測の信頼性をどのように推定し、アクティブラーニングを支援できるか？

主な発見

3クラスセグメンテーションタスクにおいて、パリコーパスでmIoUが0.8905に達し、以前のベンチマークを顕著に上回った。
グローバルコーパスにおいては3クラスタスクでmIoUが0.8055に達し、高い図像的多様性にもかかわらず、文化的な一般化能力が顕著に高いことを示した。
より複雑な5クラスセグメンテーションタスクにおいても、パリではmIoUが0.6363、グローバルコーパスでは0.5595を達成し、細分化されたカテゴリに対しても高い性能を示した。
提案された図像的多様性指標により、パリおよびグローバルコーパスの両方が、類似する既存データセットと比較して顕著に高い表現多様性を示していることが明らかになった。
ニューラルネットワークは図像的ばらつきに対して高い耐性を示し、視覚的外観を越えて形状的、トポロジカル、意味的特徴を統合していることが示唆された。
信頼性予測手法は、不確実な予測を効果的に同定でき、低パフォーマンス領域のアノテーション負荷を軽減するアクティブラーニングに有効に機能した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。