[论文解读] The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora
本论文介绍 CLASSLA-web 2.0,一个用于七种南斯拉语的大型、迭代抓取的网页语料库集合,带有体裁、主题和语言信息,并与 CLASSLA-web 1.0 进行比较,以分析增长、重叠和内容质量。
Crawling national top-level domains has proven to be highly effective for collecting texts in less-resourced languages. This approach has been recently used for South Slavic languages and resulted in the largest general corpora for this language group: the CLASSLA-web 1.0 corpora. Building on this success, we established a continuous crawling infrastructure for iterative national top-level domain crawling across South Slavic and related webs. We present the first outcome of this crawling infrastructure - the CLASSLA-web 2.0 corpus collection, with substantially larger web corpora containing 17.0 billion words in 38.1 million texts in seven languages: Bosnian, Bulgarian, Croatian, Macedonian, Montenegrin, Serbian, and Slovenian. In addition to genre categories, the new version is also automatically annotated with topic labels. Comparing CLASSLA-web 2.0 with its predecessor reveals that only one-fifth of the texts overlap, showing that re-crawling after just two years yields largely new content. However, while the new web crawls bring growing gains, we also notice growing pains - a manual inspection of top domains reveals a visible degradation of web content, as machine-generated sites now contribute a significant portion of texts.
研究动机与目标
- 展示在南斯拉语中的双年抓取基础设施以进行基于顶级域名的迭代网页语料库收集。
- 提供一个规模更大、注释更丰富的网页语料库(CLASSLA-web 2.0),覆盖七种语言。
- 分析 1.0 与 2.0 之间的内容演变、重叠和质量,以理解网页动态和数据质量挑战。
- 提供有关体裁与主题分布的洞见,以支持下游 NLP 研究和数据集构建。
提出的方法
- 使用 MaCoCu 爬虫流水线抓取国家顶级域名和相关通用域名。
- 在文档和段落层面应用语言识别,采用三元组分类器和 CLD2;对通用域名中的 HBS 歧义使用朴素贝叶斯分类器。
- 后处理以移除样板文本、近重复、非目标语言内容和编码问题;对高流量域名进行人工域验证。
- 使用 X-GENRE 分类器自动注释文本的体裁,并利用基于多语言 IPTC 的新闻文本主题分类器对主题进行注释。
- 通过 CLASSLA-Stanza 流水线对文本进行语言学标注,包括分词、词形还原和形态句法标注。
- 将 2.0 与 1.0 进行比较以评估规模增量、内容重叠和低质量内容的存在,并基于 URL 重叠的回归模型估算内容重叠。
实验结果
研究问题
- RQ1CLASSLA-web 2.0 在七种南斯拉语中的语料库有多大和多样?
- RQ2CLASSLA-web 2.0 与早期的 1.0 版本之间的重叠情况如何,两个年份间的内容更替情况如何?
- RQ3新语料库中的体裁和主题分布如何,且这些模式在不同语言之间有何差异?
- RQ4迭代网页抓取中出现的质量挑战(如机器生成内容)有哪些,人工域验证如何帮助?
- RQ5URL 重叠是否可以作为大型网页语料库内容重叠的快速代理?
主要发现
- CLASSLA-web 2.0 在七种语言中包含 17.0 十亿词、38.1 百万文本。
- 保加利亚语和蒙特内格罗语语料库增长最大,与 1.0 相比几乎翻倍;总体而言,2.0 中有 82% 的文本是相对于 1.0 的新文本。
- 只有约 20% 的 CLASSLA-web 1.0 文本出现在 2.0 中,显示出两年内网页内容的快速更替。
- 新闻是所有语料库中的主导体裁,在不同语言中有关于 promotion(推广)和 forum(论坛)的差异。
- 在新闻类中,五个主题(体育、政治、经济/金融、艺术/文化/娱乐/媒体、人物趣闻)约占文本的 60%,其中体育通常居于领先。
- 2.0 中出现了机器生成或低质量域名的显著上升,在域名移除前约占文本的 15%,强调了人工域验证的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。