[논문 리뷰] Estimation of English and non-English Language Use on the WWW
이 논문은 공통 단어의 빈도를 사용하여 언어별 웹 코퍼스 크기를 추정하는 통계 기법을 제안한다. 1996년에서 2000년 사이의 웹 데이터에 이 방법을 적용한 결과, 영어를 제외한 유럽의 비영어 언어들이 영어보다 더 빠르게 성장하고 있음을 발견했지만, 영어는 여전히 웹 내에서 지배적인 위치를 차지하고 있다.
The World Wide Web has grown so big, in such an anarchic fashion, that it is difficult to describe. One of the evident intrinsic characteristics of the World Wide Web is its multilinguality. Here, we present a technique for estimating the size of a language-specific corpus given the frequency of commonly occurring words in the corpus. We apply this technique to estimating the number of words available through Web browsers for given languages. Comparing data from 1996 to data from 1999 and 2000, we calculate the growth of a number of European languages on the Web. As expected, non-English languages are growing at a faster pace than English, though the position of English is still dominant.
연구 동기 및 목표
- 공통 단어의 빈도를 바탕으로 언어별 웹 코퍼스 크기를 추정하는 방법을 개발하기 위해.
- 유럽 언어들 간의 다국어 웹 콘텐츠 성장 추세를 분석하기 위해.
- 1996년에서 2000년 사이에 영어와 비영어 언어 간의 상대적 성장률을 비교하기 위해.
- 다국어 콘텐츠 증가의 맥락에서 웹 상의 영어 지배성 평가하기 위해.
- 전체 코퍼스 색인 없이도 확장 가능한, 빈도 기반 접근 방식을 통해 웹 상의 언어 분포를 모니터링하기 위해.
제안 방법
- 저자들은 'the', 'and'와 같은 고빈도 기능어의 빈도를 사용하여 특정 언어의 웹 콘텐츠 총량을 추정하는 대체 지표로 활용한다.
- 지프의 법칙과 단어 빈도 분포를 기반으로 한 통계 모델을 적용하여 샘플 빈도에서 총 단어 수를 외삽한다.
- 이 방법은 공통 단어의 상대 빈도가 특정 언어의 텍스트 총량과 상관이 있음을 가정한다.
- 데이터는 여러 유럽 국가의 웹 크롤링을 통해 수집되며, 주로 HTML 문서를 대상으로 한다.
- 통제된 샘플에서 알려진 코퍼스 크기와 관측된 단어 빈도를 校정하여 추정치를 도출한다.
- 전체 텍스트 색인을 피하기 위해 언어적 지표와 빈도 패턴에 의존하여 언어별 코퍼스 크기를 추론한다.
실험 결과
연구 질문
- RQ1웹 콘텐츠를 전체 색인 없이도 언어별 웹 코퍼스 크기를 어떻게 추정할 수 있는가?
- RQ21996년에서 2000년 사이에 비영어 유럽 언어들의 웹 상 성장률은 영어에 비해 어떻게 되는가?
- RQ3다국어화가 진행됨에 따라 영어가 여전히 웹 콘텐츠에서 지배적인가?
- RQ4단어 빈도 패턴은 특정 언어의 웹 상 텍스트 총량을 신뢰성 있게 예측할 수 있는가?
- RQ5이러한 추정치는 다양한 언어 집단과 웹 지역 간에서 얼마나 안정적인가?
주요 결과
- 이 방법은 전체 텍스트 색인 없이도 단어 빈도 데이터만으로 언어별 웹 코퍼스 크기를 성공적으로 추정한다.
- 1996년에서 2000년 사이에 비영어 유럽 언어들이 영어보다 더 빠른 성장률을 보였으며, 이는 웹 상의 다국어화가 진행되고 있음을 시사한다.
- 비영어 언어들의 빠른 성장에도 불구하고, 영어는 여전히 웹 상의 총 단어 수 측면에서 지배적인 언어로 남아 있다.
- 추정된 영어 코퍼스 크기는 데이터셋 내의 다른 어떤 비영어 언어의 경우보다도 유의미하게 더 크다.
- 이 모델은 여러 언어 집단에 걸쳐 일관성을 보이며, 대규모 웹 언어 추정에 있어 신뢰성을 뒷받침한다.
- 결과는 다국어 콘텐츠가 급속도로 확장되고 있으며, 웹 상의 영어 중심 지배성에 대한 가정을 도전할 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.