[論文レビュー] Basic Linguistic Resources and Baselines for Bhojpuri, Magahi and Maithili for Natural Language Processing
本稿では、インドのプルヴァンチャル地方に属する低リソースなインダ・アリヤン語・ボージュプリ、マガヒ、マイティリのための、新たに収集・整備・言語学的にアノテートされたコーパスを提示する。POSおよびチャンクタグ付きのBISタグセットを用いたアノテーションを含む。文字、語、音節、語素レベルにおける比較言語統計を提供し、NLP開発の基盤リソースとベースラインを提示する。コーパスサイズは、本質的なサイズ差を考慮しつつ、公平な比較が可能になるよう調整されている。
Corpus preparation for low-resource languages and for development of human language technology to analyze or computationally process them is a laborious task, primarily due to the unavailability of expert linguists who are native speakers of these languages and also due to the time and resources required. Bhojpuri, Magahi, and Maithili, languages of the Purvanchal region of India (in the north-eastern parts), are low-resource languages belonging to the Indo-Aryan (or Indic) family. They are closely related to Hindi, which is a relatively high-resource language, which is why we make our comparisons with Hindi. We collected corpora for these three languages from various sources and cleaned them to the extent possible, without changing the data in them. The text belongs to different domains and genres. We calculated some basic statistical measures for these corpora at character, word, syllable, and morpheme levels. These corpora were also annotated with parts-of-speech (POS) and chunk tags. The basic statistical measures were both absolute and relative and were meant to give an indication of linguistic properties such as morphological, lexical, phonological, and syntactic complexities (or richness). The results were compared with a standard Hindi corpus. For most of the measures, we tried to keep the size of the corpus the same across the languages so as to avoid the effect of corpus size, but in some cases it turned out that using the full corpus was better, even if sizes were very different. Although the results are not very clear, we try to draw some conclusions about the languages and the corpora. For POS tagging and chunking, the BIS tagset was used to manually annotate the data. The sizes of the POS tagged data are 16067, 14669 and 12310 sentences, respectively for Bhojpuri, Magahi and Maithili. The sizes for chunking are 9695 and 1954 sentences for Bhojpuri and Maithili, respect
研究の動機と目的
- インドのプルヴァンチャル地方における低リソースなインダ・アリヤン語の言語学的リソースの不足に対処すること。
- 原文の内容を変更せずに、複数のソースから多様なドメインのコーパスを収集・整備し、ボージュプリ、マガヒ、マイティリのためのコーパスを構築すること。
- 文字、語、音節、語素レベルにおける基本的な言語統計を計算し、語彙的・音声的・構文的複雑性を評価すること。
- 今後のNLPタスクのための下流タスクに適した、BISタグセットを用いた手動によるPOSおよびチャンクタグ付きデータセットを作成すること。
- これらの言語と標準的なヒンディ語コーパスとの間で、言語的性質およびリソース特性を比較し、可能な限りコーパスサイズのバイアスを最小限に抑えること。
提案手法
- ドメインおよびジャンルの多様性を確保しつつ、ボージュプリ、マガヒ、マイティリのための生テキストコーパスを複数のソースから収集した。
- 原文の内容を保持しつつ、利用可能性を向上させるためにデータクリーニングを実施したが、言語学的内容に変更は加えなかった。
- 言語的複雑性を評価するため、文字、語、音節、語素レベルにおける絶対値および相対値の言語統計を計算した。
- 一貫性のある言語学的評価を可能にするために、BISタグセットを用いてコーパスに品詞(POS)およびチャンクタグをアノテートした。
- 比較可能性を高めるために、可能な限り言語間でコーパスサイズを標準化したが、より代表的であるとされる場合、元のコーパスサイズを維持した。
- 研究結果の文脈化のため、標準的ヒンディ語コーパスと照らし合わせて言語的測定値およびリソース特性を比較した。
実験結果
リサーチクエスチョン
- RQ1ボージュプリ、マガヒ、マイティリの語彙的・音声的・構文的複雑性は、ヒンディ語と比べてどのように異なるか?
- RQ2ボージュプリ、マガヒ、マイティリコーパスにおける主な言語統計(例:語長、語素数、音節構造)は何か?
- RQ3コーパスサイズの差が、これらの低リソース言語間の言語的比較の信頼性にどの程度影響を及えるか?
- RQ4手動アノテート済みのPOSおよびチャンクタグ付きデータセットは、今後のこれらの言語におけるNLPタスクのベースラインとしてどれほど有効か?
- RQ5これらの密接に関連するが未十分なリソースを有する言語の言語的性質から、どのような知見が得られるか?
主な発見
- POSタグ付きコーパスには、ボージュプリで16,067文、マガヒで14,669文、マイティリで12,310文が含まれており、NLPタスクのための十分な学習データを提供している。
- チャンクタグ付きコーパスには、ボージュプリで9,695文、マイティリで1,954文が含まれており、構文解析や構文解析研究を支援している。
- コーパスサイズのバランスを図る努力にもかかわらず、元のコーパスサイズの差が、特定の言語的測定値の比較可能性に影響を及ぼした。
- 文字、語、音節、語素レベルの複数の言語統計から、3言語間で語彙的および語彙的複雑性の明確なパターンが明らかになった。
- 限られたリソースでも、BISタグセットを用いた一貫性のあるアノテーションにより、POSタギングおよびチャンクタギングの信頼性の高いベースラインを構築可能であることが示された。
- ヒンディ語との比較分析から、言語的豊かさおよび複雑性に測定可能な差が認められ、各言語に固有のNLPモデリングニーズがあることが示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。