Skip to main content
QUICK REVIEW

[論文レビュー] Processing South Asian Languages Written in the Latin Script: the Dakshina Dataset

Brian Roark, Lawrence Wolf-Sonkin|arXiv (Cornell University)|Jul 2, 2020
Natural Language Processing Techniques参考文献 32被引用数 32
ひとこと要約

Dakshinaデータセットは、12の南アジア言語について、ラテン文字表記とネイティブスクリプトのテキストを提供し、ローマ字化辞典と文全体の並列データを含み、ベースラインの転写と言語モデリングの結果を持つ。

ABSTRACT

This paper describes the Dakshina dataset, a new resource consisting of text in both the Latin and native scripts for 12 South Asian languages. The dataset includes, for each language: 1) native script Wikipedia text; 2) a romanization lexicon; and 3) full sentence parallel data in both a native script of the language and the basic Latin alphabet. We document the methods used for preparation and selection of the Wikipedia text in each language; collection of attested romanizations for sampled lexicons; and manual romanization of held-out sentences from the native script collections. We additionally provide baseline results on several tasks made possible by the dataset, including single word transliteration, full sentence transliteration, and language modeling of native script and romanized text. Keywords: romanization, transliteration, South Asian languages

研究の動機と目的

  • Latin-scriptとネイティブスクリプトデータを12の南アジア言語間で橋渡しする新しいリソース(Dakshina)を紹介する。
  • 各言語についてネイティブスクリプトのWikipediaテキスト、ローマ字化辞典、完全な文の並列データを提供する。
  • Wikipediaテキストの準備方法、ローマ字表現の収集、ホールドアウト文の手動ローマ字化を記録する。
  • ネイティブスクリプトとローマ字表記テキストに対する単語転写・文全体転写・言語モデリングのベースライン結果を確立する。

提案手法

  • ネイティブスクリプトWikipediaテキスト、ローマ字表現辞典、完全な文の並列データを含むデータセット構成を説明する。
  • 各言語のWikipediaテキストを選択・準備する手順を概説する。
  • サンプル辞典に対して認証済みローマ字表現の収集方法を説明する。
  • ネイティブスクリプトコレクションからのホールドアウト文の手動ローマ字化を詳述する。
  • ネイティブスクリプトとローマ字表記テキストに対する転写(単語レベルと文レベル)および言語モデリングのベースライン実験を提供する。

実験結果

リサーチクエスチョン

  • RQ1Dakshinaは各言語に対してどのようなデータ資源(ネイティブスクリプトテキスト、ローマ字表現辞典、並列コーパス)を提供していますか?
  • RQ2Dakshinaデータセットをネイティブスクリプトおよびローマ字表記テキストに適用した場合、ベースラインの転写および言語モデリングタスクの効果はどの程度ですか?
  • RQ3データセットの準備とローマ字化に用いられた方法と品質管理、ホールドアウト文を含む。
  • RQ4Dakshinaの異なる言語とスクリプト間で転写のベースラインはどのように機能しますか?

主な発見

  • Dakshinaは12の南アジア言語に対してネイティブスクリプトWikipediaテキスト、ローマ字表現辞典、完全な文の並列データを提供します。
  • 本論文はWikipediaテキストの準備と選択、認証済みローマ字表現の収集、ホールドアウト文の手動ローマ字化を記録します。
  • ネイティブスクリプトおよびローマ字表記テキストに対する単語転写、全文転写、言語モデリングのベースライン結果が確立されます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。