[論文レビュー] EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates
要旨: 本論文は Encyclopédie からの座標のゴールドスタンダードデータセットを提示し、座標を特定・取得・正規化するためのトランスフォーマーモデルを訓練し、クロスドメインおよびアウトオブドメインの性能を評価します。
This paper introduces a dataset of enriched geographic coordinates retrieved from Diderot and d'Alembert's eighteenth-century Encyclopedie. Automatically recovering geographic coordinates from historical texts is a complex task, as they are expressed in a variety of ways and with varying levels of precision. To improve retrieval of coordinates from similar digitized early modern texts, we have created a gold standard dataset, trained models, published the resulting inferred and normalized coordinate data, and experimented applying these models to new texts. From 74,000 total articles in each of the digitized versions of the Encyclopedie from ARTFL and ENCCRE, we examined 15,278 geographical entries, manually identifying 4,798 containing coordinates, and 10,480 with descriptive but non-numerical references. Leveraging our gold standard annotations, we trained transformer-based models to retrieve and normalize coordinates. The pipeline presented here combines a classifier to identify coordinate-bearing entries and a second model for retrieval, tested across encoder-decoder and decoder architectures. Cross-validation yielded an 86% EM score. On an out-of-domain eighteenth-century Trevoux dictionary (also in French), our fine-tuned model had a 61% EM score, while for the nineteenth-century, 7th edition of the Encyclopaedia Britannica in English, the EM was 77%. These findings highlight the gold standard dataset's usefulness as training data, and our two-step method's cross-lingual, cross-domain generalizability.
研究の動機と目的
- Encyclopédie (ARTFL および ENCCRE) から座標を含むエントリのゴールドスタンダードデータセットを作成する。
- 座標を分類する二段階パイプラインを開発し、その後座標を取得/正規化する。
- 座標取得と正規化のためにトランスフォーマーモデルを訓練し、 クロスドメイン一般化を評価する。
- 再現性と再利用のためにデータ、モデル、デモをオープンアクセスで提供する。
提案手法
- 二つのデジタル化された Encyclopédie 編集版(ARTFL および ENCCRE)における地理エントリを識別し、座標と関連幾何(点、面、連結、列)を手動で注釈する。
- 注釈を統合して 4,798 件の座標を含むエントリと 10,480 件の文のみエントリから成る単一のゴールドスタンダードを形成する。
- 座標の存在を高精度で検出する二値分類器(BERT multilingual)を訓練する。
- 記事テキストから正規化された DMS 座標文字列を生成するために sequence-to-sequence モデル(mt5-small)をファインチューニングする。
- 正確一致(EM)と CER を用いて座標取得を評価し、 encoder–decoder と decoder アーキテクチャを比較する。
- Trévoux 辞典や Britannica(アウトオブドメインのテキスト)でモデルをテストし、クロスドメイン/一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1異なる版の Encyclopédie から歴史的座標のゴールドスタンダードデータセットを作成し、注釈を効果的に統合できるか。
- RQ2トランスフォーマーベースのモデルは、標準外の表記で表現された歴史的座標を正確に識別・取得・正規化できるか。
- RQ3訓練済みモデルはアウトオブドメインの歴史テキストにどれほど一般化できるか。
- RQ4座標幾何タイプ(点、境界ボックス、連結、列)が取得と正規化の性能に与える影響は何か。
主な発見
- データセットは ARTFL と ENCCRE から 15,278 件の地理的記述のうち、4,798 件の座標を含むエントリと 10,480 件の文のみエントリを含む。
- 座標の有無を判定する二値分類器は5-fold クロスバリデーションで 99.2% の精度、98.8% の適合率、98.6% の再現率を達成。
- mt5-small を用いた座標取得/正規化は保持データで EM 86%、CER 0.07 を達成。GPT 系モデル(gpt5-mini)は設定によって同等の EM と低いCER を示す場合がある。
- アウトオブドメインの Trévoux 辞典では EM = 61%(座標あり場合)、Britannica(1842)は EM = 77%。
- 単一のよく形成された点だけに限定すると EM の改善が見られ、精度形式(DM、DMS など)によりモデルの性能が異なる。
- 表面やより複雑な座標タイプ(表面、下位エントリ、複数出典)は注釈・正規化の課題が大きく、合意率が低く、誤差数が多くなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。