Skip to main content
QUICK REVIEW

[論文レビュー] Critical Survey of the Freely Available Arabic Corpora

Wajdi Zaghouani|arXiv (Cornell University)|Feb 25, 2017
Natural Language Processing Techniques参考文献 33被引用数 87
ひとこと要約

本論文は自由に利用可能なアラビア語コーパスを調査し、初期の66源のリストを特定し、直接アクセスリンクを提供します。

ABSTRACT

The availability of corpora is a major factor in building natural language processing applications. However, the costs of acquiring corpora can prevent some researchers from going further in their endeavours. The ease of access to freely available corpora is urgent needed in the NLP research community especially for language such as Arabic. Currently, there is not easy was to access to a comprehensive and updated list of freely available Arabic corpora. We present in this paper, the results of a recent survey conducted to identify the list of the freely available Arabic corpora and language resources. Our preliminary results showed an initial list of 66 sources. We presents our findings in the various categories studied and we provided the direct links to get the data when possible.

研究の動機と目的

  • コーパスアクセスのコスト障壁に対処することで、アラビア語のNLP研究を促進する。
  • 自由に入手可能なアラビア語コーパスと言語リソースを特定・編纂する。
  • 可能な場合には直接アクセスリンク付きで、分類された最新のリソース一覧を提供する。
  • 将来のリソース収集と活用を導くための予備的な調査結果とギャップを明らかにする。

提案手法

  • 自由に入手可能なアラビア語コーパスとリソースを特定するための調査を実施する。
  • 研究で特定された初期リスト(約66件)を編纂する。
  • リソースの種類別に分類した所見を提示し、可能な場合は直接リンクを提供する。
  • 研究者のアクセスを容易にする統合リストを公開する。

実験結果

リサーチクエスチョン

  • RQ1NLP研究のために自由に入手可能なアラビア語コーパスとリソースにはどのようなものがあるか?
  • RQ2これらのリソースはどのように分類され、どのアクセスリンクが利用可能か?
  • RQ3アラビア語分野全体で自由に利用できるリソースのカバレッジはどの程度か?
  • RQ4自由にアクセス可能なアラビア語コーパスとリソースにはどのようなギャップが残っているか?

主な発見

  • 自由に入手可能なアラビア語コーパスとリソースの初期リスト66件を特定した。
  • 調査で研究したさまざまなカテゴリにわたって所見を提示している。
  • データへアクセスする直接リンクは可能な限り提供されている。
  • 研究者のアクセス支援を目的としたリソースリストの作成に結びついた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。