QUICK REVIEW

[논문 리뷰] The Growing Gains and Pains of Iterative Web Corpora Crawling: Insights from South Slavic CLASSLA-web 2.0 Corpora

Taja Kuzman Pungeršek, Peter Rupnik|arXiv (Cornell University)|2026. 01. 16.

Natural Language Processing Techniques인용 수 0

한 줄 요약

이 논문은 CLASSLA-web 2.0을 소개한다, 남슬라브어 7개 언어에 대해 대량의, 점진적으로 크롤링된 웹 코퍼스 컬렉션으로, 장르, 주제, 그리고 언어 정보를 주석하며, 성장, 중복, 콘텐츠 품질을 분석하기 위해 CLASSLA-web 1.0과 비교한다.

ABSTRACT

Crawling national top-level domains has proven to be highly effective for collecting texts in less-resourced languages. This approach has been recently used for South Slavic languages and resulted in the largest general corpora for this language group: the CLASSLA-web 1.0 corpora. Building on this success, we established a continuous crawling infrastructure for iterative national top-level domain crawling across South Slavic and related webs. We present the first outcome of this crawling infrastructure - the CLASSLA-web 2.0 corpus collection, with substantially larger web corpora containing 17.0 billion words in 38.1 million texts in seven languages: Bosnian, Bulgarian, Croatian, Macedonian, Montenegrin, Serbian, and Slovenian. In addition to genre categories, the new version is also automatically annotated with topic labels. Comparing CLASSLA-web 2.0 with its predecessor reveals that only one-fifth of the texts overlap, showing that re-crawling after just two years yields largely new content. However, while the new web crawls bring growing gains, we also notice growing pains - a manual inspection of top domains reveals a visible degradation of web content, as machine-generated sites now contribute a significant portion of texts.

연구 동기 및 목표

남슬라브어의 TLD 기반 웹 코퍼스 수집을 위한 연 2회의 크롤링 인프라를 시연한다.
CLASSLA-web 2.0으로서 7개 언어에 걸친 substantially larger, richly annotated 웹 코퍼스 제공.
1.0과 2.0 사이의 콘텐츠 진화, 중복, 품질을 분석하여 웹 역동성과 데이터 품질 과제를 이해한다.
후속 NLP 연구 및 데이터셋 구성 지원을 위한 장르 및 주제 분포에 대한 통찰을 제공한다.

제안 방법

MaCoCu 크롤러 파이프라인을 사용하여 국가 최상위 도메인과 연결된 일반 도메인을 크롤링한다.
트라이그램 분류기 및 CLD2를 사용한 문서 및 단락 수준의 언어 식별, 일반 도메인에서 HBS 중의성 해소를 위한 나이브 베이즈 분류기를 적용한다.
보일러플레이트, 거의 중복되는 콘텐츠, 비대상 언어 콘텐츠 및 인코딩 이슈를 제거하기 위한 사후 처리; 고트래픽 도메인에 대한 수동 도메인 검증 수행.
뉴스 텍스트를 대상으로 X-GENRE 분류기로 텍스트에 장르를 자동 주석하고, 다국어 기반 IPTC 토픽 분류기로 주제로 주석한다.
토큰화, 어간추출, 형태통사 태깅을 위한 CLASSLA-Stanza 파이프라인으로 언어적으로 주석한다.
2.0과 1.0을 비교하여 규모 증가, 콘텐츠 중복, 저품질 콘텐츠의 존재 여부를 평가하고 URL 중복을 기반으로 한 회귀 모델을 사용해 콘텐츠 중복을 추정한다.

실험 결과

연구 질문

RQ1CLASSLA-web 2.0 코퍼스가 7개 남슬라브어에서 얼마나 크고 다양합니까?
RQ2CLASSLA-web 2.0과 이전의 1.0 간의 중복은 어느 정도이며, 2년 간격 동안 콘텐츠 turnover는 어떻게 보입니까?
RQ3새로운 코퍼스의 장르와 주제 분포는 어떻게 되며, 이 패턴은 언어별로 어떻게 달라집니까?
RQ4반복적 웹 크롤링에서 나타나는 품질 문제(예: 기계 생성 콘텐츠)와 수동 도메인 검증이 어떻게 도움이 됩니까?
RQ5대규모 웹 코퍼라 간의 콘텐츠 중복을 빠르게 가늠하는 지표로 URL 중복이 유용합니까?

주요 결과

CLASSLA-web 2.0은 7개 언어에서 38.1백만 텍스트에 걸쳐 17.0십억 단어를 포함합니다.
불가리아어 및 몬테네그로어 코퍼스가 가장 큰 성장을 보였으며 1.0과 비교해 거의 두 배로 증가; 전체적으로 2.0의 텍스트 중 82%가 1.0에 비해 새로운 텍스트입니다.
CLASSLA-web 1.0의 텍스트 중 약 20%만이 2.0에 나타나며, 2년의 짧은 기간 동안 웹 콘텐츠가 빠르게 turnover했음을 시사합니다.
뉴스가 모든 코퍼스에서 지배적 장르이며, 각 언어별로 프로모션 및 포럼의 비율에 차이가 있습니다.
뉴스 하위에서 다섯 가지 주제(스포츠, 정치, 경제/금융, 예술/문화/엔터테인먼트/미디어, 인간 관심) 가 약 60%의 텍스트를 차지하며, 스포츠가 종종 선두를 차지합니다.
2.0에서 기계 생성 콘텐츠나 저품질 도메인의 비중이 증가해 도메인 제거 전 약 15%의 텍스트를 차지하므로 수동 도메인 검증의 필요성이 강조됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.