Skip to main content
QUICK REVIEW

[論文レビュー] Symphonym: Universal Phonetic Embeddings for Cross-Script Name Matching

Stephen Gadd|arXiv (Cornell University)|Jan 11, 2026
Geographic Information Systems Studies被引用数 0
ひとこと要約

Symphonym is a teacher-student neural embedding system that maps toponyms from any script into a unified 128-dimensional phonetic space, enabling cross-script name matching without runtime phonetic resources; it achieves state-of-the-art Recall@1 on Hebrew-Arabic toponyms and will power phonetic search in the World Historical Gazetteer (WHG).

ABSTRACT

Linking names across historical sources, languages, and writing systems remains a fundamental challenge in digital humanities and geographic information retrieval. Existing approaches require language-specific phonetic algorithms or fail to capture phonetic relationships across different scripts. This paper presents Symphonym, a neural embedding system that maps names from any script into a unified 128-dimensional phonetic space, enabling direct similarity comparison without runtime phonetic conversion. Symphonym uses a Teacher-Student architecture where a Teacher network trained on articulatory phonetic features produces target embeddings, while a Student network learns to approximate these embeddings directly from characters. The Teacher combines Epitran (extended with 100 new language-script mappings), Phonikud for Hebrew, and CharsiuG2P for Chinese, Japanese, and Korean. Training used 32.7 million triplet samples of toponyms spanning 20 writing systems from GeoNames, Wikidata, and Getty Thesaurus of Geographic Names. On the MEHDIE Hebrew-Arabic historical toponym benchmark, Symphonym achieves Recall@10 of 97.6% and MRR of 90.3%, outperforming Levenshtein and Jaro-Winkler baselines (Recall@1: 86.7% vs 81.5% and 78.5%). Evaluation on 12,947 real cross-script training pairs shows 82.6% achieve greater than 0.75 cosine similarity, with best performance on Arabic-Cyrillic (94--100%) and Cyrillic-Latin (94.3%) combinations. The fixed-length embeddings enable efficient retrieval in digital humanities workflows, with a case study on medieval personal names demonstrating effective transfer from modern place names to historical orthographic variation.

研究の動機と目的

  • 言語特有の音声資源なしでのクロススクリプト地名対応を実現する。
  • 20以上のスクリプトに対応する統一音声埋め込み空間を学習し、スケーラブルな推論を可能にする。
  • 蒸留を通じて発声特徴から文字ベースの推論へ音声知識を転移させる。
  • 三段階のカリキュラムとノイズ拡張によって偽同形語やOCR/綴りノイズを緩和する。
  • WHG(World Historical Gazetteer)と連携して67M以上の地名に対する音声検索を可能にする。

提案手法

  • 教師ネットワークはIPAベースの発話特徴を128次元の埋め込みへエンコードする(Epitran G2P + PanPhon)。
  • Studentネットワークは raw character から直接教師埋め込みを近似するよう学習し、音声資源なしで推論を可能にする。
  • 三段階の訓練カリキュラム: Phase 1 は phonetic features での triplet loss、Phase 2 は Student への蒸留、Phase 3 は hard negative 訓練。
  • スクリプト認識入力と20-script検出、スクリプトトークン埋め込みにより、スクリプトに依存しない統一埋め込み空間を実現。
  • 推論にはコサイン類似度を用い、 phonetic 空間での L1/マンハッタン距離の限界を訓練損失に組み込む。
  • Student訓練時にはOCR/綴りの変動や転写の不一致を模倣するノイズ拡張を実施。

実験結果

リサーチクエスチョン

  • RQ1言語識別や実行時の音声変換なしにクロススクリプト地名対応を達成できるか。
  • RQ220スクリプトに対して統一の128次元音声埋め込みは、従来の文字列指標や単一スクリプト手法と比べてどの程度の性能を示すか。
  • RQ3教師-学生蒸留は低資源スクリプトへの頑健なクロススクリプト一般化を可能にするか。
  • RQ4ノイズ拡張とハードネガティブマイニングが埋め込み品質と検索性能に与える影響はどれくらいか。

主な発見

  • MEHDIE ヘブライ語-アラビア語ベンチマークで Symphonym は Recall@1 = 87.5% を達成。
  • ベンチマークで Levenshtein(Recall@1 81.5%)および Jaro-Winkler(Recall@1 78.5%)のベースラインを上回る。
  • 标准的な文字列指標が機能しない北京 vs Bejing のようなクロススクリプトマッチングをサポートし、訓練データが限られたスクリプトにも音声基盤により一般化する。
  • 訓練データは GeoNames、Wikidata、Getty TGN からの 66.9M の地名に対して層別化と重複排除を経て得られた 5,088,419 件のユニークな訓練ペアで構成。
  • WHG の展開により World Historical Gazetteer 内の 67M+ の地名に対する音声検索と照合を可能にする。
  • 埋め込みは 128 次元で、Teacher(発話特徴)と Student(文字列系列)の3段階カリキュラムで学習される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。