Skip to main content
QUICK REVIEW

[論文レビュー] Survey on Publicly Available Sinhala Natural Language Processing Tools and Research

Nisansa de Silva|arXiv (Cornell University)|Jun 5, 2019
Natural Language Processing Techniques参考文献 207被引用数 23
ひとこと要約

本論文は、スリランカの僧伽語自然言語処理(NLP)研究者グループ間の連携不足と可視性の欠如を是正することを目的として、公に利用可能な僧伽語NLPツールおよび研究の包括的で継続的なサーベイを提示する。このサーベイは、散在する取り組みを統合し、NLPの各層と応用分野にわたり、既存のツールを体系的に分類する。また、僧伽語の書記の歴史的概要を提示し、研究動向と共同研究の傾向を分析する。本サーベイはarXiv上で定期的に更新され、分野の進展を反映する。

ABSTRACT

Sinhala is the native language of the Sinhalese people who make up the largest ethnic group of Sri Lanka. The language belongs to the globe-spanning language tree, Indo-European. However, due to poverty in both linguistic and economic capital, Sinhala, in the perspective of Natural Language Processing tools and research, remains a resource-poor language which has neither the economic drive its cousin English has nor the sheer push of the law of numbers a language such as Chinese has. A number of research groups from Sri Lanka have noticed this dearth and the resultant dire need for proper tools and research for Sinhala natural language processing. However, due to various reasons, these attempts seem to lack coordination and awareness of each other. The objective of this paper is to fill that gap of a comprehensive literature survey of the publicly available Sinhala natural language tools and research so that the researchers working in this field can better utilize contributions of their peers. As such, we shall be uploading this paper to arXiv and perpetually update it periodically to reflect the advances made in the field.

研究の動機と目的

  • スリランカの僧伽語NLP研究グループ間における連携不足と可視性の欠如を是正すること。
  • 公に利用可能な僧伽語NLPツールおよび研究の集中管理型で最新の状態を保ち、定期的に更新されるサーベイを提供すること。
  • 言語的層(音声的から意図的まで)および応用分野(情報検索、情報抽出、自然言語理解)にわたる既存のNLPツールをマッピングすること。
  • 僧伽語NLP研究における被引用パターンと機関間連携の傾向を分析すること。
  • 僧伽語NLP分野における今後の研究およびツール開発を導くための、arXiv上での継続的参照文書としての役割を果たすこと。

提案手法

  • 公に利用可能な僧伽語NLPツールおよび研究論文の体系的文献レビュー。
  • NLP層(音声的、語彙的、語彙的、構文的、意味的、話法的、意図的)および応用分野(情報検索、情報抽出、自然言語理解)に基づくツールおよび研究の分類。
  • NandasaraおよびMikamiのデータを用いて、僧伽語書記の発展をたどるための歴史的碑文および書記の進化データの活用。
  • 出版メタデータを用いた共同執筆および被引用ネットワークの分析。ただし、PDFの入手可能性およびテキスト抽出の正確性に制限がある。
  • 確率的被引用モデリングを用いて、機関間連携および自己被引用の傾向を評価。
  • サーベイをarXivにホスティングし、継続的な関連性とアクセス可能性を確保するため、定期的な更新を実施。

実験結果

リサーチクエスチョン

  • RQ1現在公に利用可能な僧伽語NLPツールは何か。また、それらは言語処理層にどのように分布しているか。
  • RQ2被引用パターンは、僧伽語NLP研究における機関間の連携と知識の流れをどのように反映しているか。
  • RQ3僧伽語NLPツール開発における主なギャップは何か。また、それが言語がリソースが乏しい言語としての立場とどのように関係しているか。
  • RQ4僧伽語書記は歴史的にどのように進化したのか。また、その進化はNLPツール設計にどのような影響を及えるか。
  • RQ5僧伽語NLP研究の主要機関は、互いにどれほどお互いを引用しているか。また、国際的な機関、特に外部の機関をどれほど引用しているか。

主な発見

  • コロンボ大学のコンピュータサイエンス学部(UCSC)は、僧伽語NLP分野で最も生産的な機関であり、自己被引用率が0.7543に達する。
  • モラトゥア大学のCSE学部は、より協働的な被引用行動を示しており、UCSCを0.3513の確率で引用し、他の機関を0.1236の確率で引用している。
  • 機関間被引用ネットワークは、相互連携が限定的であることを示しており、ジョンズ・ホプキンズ大学やエディンバラ大学などの一部の機関は、スリランカの研究をほとんど引用せず、主にグーグルを引用している。
  • モラトゥア大学の情報技術学部は、自学部(0.0968)よりもUCSC(0.2339)をより頻繁に引用しており、同じ大学内での他機関への傾斜が見られる。
  • 紀元前300年から1000年までの碑文(300 BCE–1000 CE)および初期の印刷物(1737年、1876年)からの歴史的書記データを用いて、書記の進化をたどり、歴史的テキスト処理のためのNLPツール設計を支援する。
  • 本サーベイはarXivにホスティングされており、継続的なドキュメントとしての役割を果たす。新規の進展を反映するため、定期的な更新が行われる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。