[論文レビュー] The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora
この論文は CLASSLA-web 2.0 を紹介します。これは七つの南スラブ語用の大規模で反復的にクロールされたウェブコーパスのコレクションで、ジャンル、トピック、言語情報で注釈付けされ、CLASSLA-web 1.0 と比較して成長、重複、コンテンツ品質を分析します。
Crawling national top-level domains has proven to be highly effective for collecting texts in less-resourced languages. This approach has been recently used for South Slavic languages and resulted in the largest general corpora for this language group: the CLASSLA-web 1.0 corpora. Building on this success, we established a continuous crawling infrastructure for iterative national top-level domain crawling across South Slavic and related webs. We present the first outcome of this crawling infrastructure - the CLASSLA-web 2.0 corpus collection, with substantially larger web corpora containing 17.0 billion words in 38.1 million texts in seven languages: Bosnian, Bulgarian, Croatian, Macedonian, Montenegrin, Serbian, and Slovenian. In addition to genre categories, the new version is also automatically annotated with topic labels. Comparing CLASSLA-web 2.0 with its predecessor reveals that only one-fifth of the texts overlap, showing that re-crawling after just two years yields largely new content. However, while the new web crawls bring growing gains, we also notice growing pains - a manual inspection of top domains reveals a visible degradation of web content, as machine-generated sites now contribute a significant portion of texts.
研究の動機と目的
- 南スラブ諸語の TLD ベースのウェブコーパス収集のための半期ごとのクロールインフラを実証する。
- 7 言語にまたがるはるかに大きく、豊富に注釈付けされたウェブコーパス(CLASSLA-web 2.0)を提供する。
- 1.0 と 2.0 の間のコンテンツの進化、重複、品質を分析し、ウェブのダイナミクスとデータ品質の課題を理解する。
- 下流の NLP 研究とデータセット構築を支援するためのジャンルとトピック分布に関するインサイトを提供する。
提案手法
- MaCoCu クローラーパイプラインを使用して国内トップレベルドメインと接続された汎用ドメインをクロールする。
- 文書レベルと段落レベルで trigram 分类器と CLD2、さらに一般ドメインの HBS 解決のための Naive Bayes 分類器を適用して言語識別を行う。
- 高トラフィックドメインに対してボイラープレート、近似重複、非対象言語コンテンツ、エンコーディング問題を除去する後処理を行い、ドメインの手動検証を実施する。
- 自動的に X-GENRE 分類器を用いてジャンルを注釈付けし、ニュース本文向けの多言語 IPTC ベースのトピック分類器でトピックを注釈付けする。
- CLASSLA-Stanza パイプラインを用いてトークン化、レンマ化、形態統語的タグ付けで言語学的注釈を行う。
- 2.0 を 1.0 と比較してサイズの増加、コンテンツの重複、低品質コンテンツの有無を評価し、URL の重複を基にした回帰モデルでコンテンツ重複を推定する。
実験結果
リサーチクエスチョン
- RQ17 言語にわたる CLASSLA-web 2.0 コーパスはどれだけ大きく、どれだけ多様か。
- RQ2CLASSLA-web 2.0 と以前の 1.0 リリースとの重複はどの程度か、2年間の間のコンテンツの回転はどうか。
- RQ3新しいコーパスのジャンルとトピックの分布はどのようで、言語によってこれらのパターンはどのように異なるか。
- RQ4反復的なウェブクロールでどのような品質課題(例:機械生成コンテンツ)が出現し、手動のドメイン検証はどのように役立つか。
- RQ5URL の重複は大規模ウェブコーパス間のコンテンツ重複の迅速な代理指標になり得るか。
主な発見
| Corpus | Words (billion) | Texts (million) |
|---|---|---|
| CLASSLA-web.bs 2.0 | 1.01 | 2.54 |
| CLASSLA-web.bg 2.0 | 5.99 | 14.67 |
| CLASSLA-web.hr 2.0 | 3.01 | 5.92 |
| CLASSLA-web.mk 2.0 | 0.69 | 2.11 |
| CLASSLA-web.cnr 2.0 | 0.29 | 0.79 |
| CLASSLA-web.sr 2.0 | 3.71 | 7.24 |
| CLASSLA-web.sl 2.0 | 2.31 | 4.79 |
| Total | 17.01 | 38.06 |
- CLASSLA-web 2.0 は七言語で 38.1 百万テキスト、Words は 1.01 十億、Texts は 2.54 百万。
- ブルガリア語とモンテネグロ語のコーパスは最も大きく成長し、1.0 と比べほぼ倍増。全体として 2.0 のテキストの 82% が 1.0 に対して新規。
- CLASSLA-web 1.0 のテキストの約 20% のみが 2.0 に現れ、2年間でウェブコンテンツが急速に入れ替わったことを示唆。
- ニュースがすべてのコーパスで優勢なジャンルであり、言語間でプロモーションとフォーラムの存在に差がある。
- ニュースの下で、五つのトピック(Sport、Politics、Economy/Finance、Arts/Culture/Entertainment/Media、Human Interest)が全テキストの約 60% を占め、Sport がしばしば先行。
- 2.0 では機械生成または低品質ドメインの比率が顕著に増加し、ドメイン削除前で約 15% のテキストを占め、手動のドメイン検証の必要性を強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。