[论文解读] Critical Survey of the Freely Available Arabic Corpora
本文对可自由获取的阿拉伯语语料库进行调研,初步识别出66个来源并提供直接访问链接。
The availability of corpora is a major factor in building natural language processing applications. However, the costs of acquiring corpora can prevent some researchers from going further in their endeavours. The ease of access to freely available corpora is urgent needed in the NLP research community especially for language such as Arabic. Currently, there is not easy was to access to a comprehensive and updated list of freely available Arabic corpora. We present in this paper, the results of a recent survey conducted to identify the list of the freely available Arabic corpora and language resources. Our preliminary results showed an initial list of 66 sources. We presents our findings in the various categories studied and we provided the direct links to get the data when possible.
研究动机与目标
- 通过解决获取语料库成本的障碍来推动阿拉伯语NLP研究。
- 识别并汇编可自由获取的阿拉伯语语料库与语言资源。
- 在可能的情况下提供带直接访问链接的分类、最新的资源清单。
- 突出初步发现和空白,以指导未来的资源收集与使用。
提出的方法
- 进行调查以识别可自由获取的阿拉伯语语料库及资源。
- 汇编研究中识别的初始来源清单(约66个)。
- 按资源类型对发现进行分类呈现,并在可能的情况下提供直接链接。
- 发布整合列表,便于研究人员更容易获取。
实验结果
研究问题
- RQ1存在哪些可自由获取的阿拉伯语语料库和资源用于NLP研究?
- RQ2这些资源如何分类以及有哪些可用的访问链接?
- RQ3可自由获取资源在阿拉伯语领域的覆盖范围如何?
- RQ4在可自由访问的阿拉伯语语料库和资源方面还存在哪些空白?
主要发现
- 识别出初始的66个可自由获取的阿拉伯语语料库与资源。
- 研究结果按调查中研究的各种类别呈现。
- 在可能的情况下提供直接访问数据的链接。
- 产生了一个旨在便于研究人员获取的资源清单。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。