Skip to main content
QUICK REVIEW

[論文レビュー] Estimation of English and non-English Language Use on the WWW

Gregory Grefenstette, Julien Nioche|arXiv (Cornell University)|Jun 23, 2000
Web visibility and informetrics参考文献 5被引用数 94
ひとこと要約

本稿では、共通語の頻度を用いて言語固有のウェブコーパスのサイズを推定する統計的手法を提案する。1996年から2000年のウェブデータにこの手法を適用した結果、英語以外のヨーロッパ諸言語が英語よりも速やかに成長していることが判明したが、英語は依然としてウェブ全体における支配的役割を果たしている。

ABSTRACT

The World Wide Web has grown so big, in such an anarchic fashion, that it is difficult to describe. One of the evident intrinsic characteristics of the World Wide Web is its multilinguality. Here, we present a technique for estimating the size of a language-specific corpus given the frequency of commonly occurring words in the corpus. We apply this technique to estimating the number of words available through Web browsers for given languages. Comparing data from 1996 to data from 1999 and 2000, we calculate the growth of a number of European languages on the Web. As expected, non-English languages are growing at a faster pace than English, though the position of English is still dominant.

研究の動機と目的

  • 語の頻度に基づいて言語固有のウェブコーパスのサイズを推定する手法を開発すること。
  • ヨーロッパ言語における多言語ウェブコンテンツの成長傾向を分析すること。
  • 1996年から2000年の間に、英語と英語以外の言語のウェブ上での相対的成長率を比較すること。
  • 増加する多言語コンテンツの状況を踏まえて、英語のウェブ上での優位性を評価すること。
  • 完全なコーパスインデックス化を必要としない、スケーラブルで頻度に基づく手法を提供すること。

提案手法

  • 著者らは、『the』や『and』などの頻出関係語の頻度を、言語固有のウェブコンテンツ総量の代理指標として用いる。
  • Zipfの法則と語の頻度分布に基づく統計モデルを適用し、サンプル頻度から全語数を外挿推定する。
  • この手法は、共通語の相対的頻度が、特定言語のテキスト総量と相関していると仮定している。
  • データは複数のヨーロッパ諸国におけるウェブクローリングから収集され、主にHTMLドキュメントに焦点を当てる。
  • 制御されたサンプルにおける既知のコーパスサイズと観測された語の頻度をキャリブレーションすることで推定値を導出する。
  • 全テキストインデックス化を避けるために、言語的マーカーと頻度パターンに依存して、言語固有のコーパスサイズを推定する。

実験結果

リサーチクエスチョン

  • RQ1ウェブコンテンツの完全なインデックス化なしに、言語固有のウェブコーパスのサイズをどのように推定できるか?
  • RQ21996年から2000年の間に、英語以外のヨーロッパ言語のウェブ上での相対的成長率は英語と比べてどの程度か?
  • RQ3多言語化の進行を踏まえても、英語がウェブコンテンツで依然として優位であるとは言えるか?
  • RQ4語の頻度パターンは、ウェブ上での特定言語のテキスト総量を信頼性を持って予測できるか?
  • RQ5これらの推定値は、異なる言語グループやウェブ地域においても安定しているか?

主な発見

  • この手法は、全テキストインデックス化を必要とせず、語の頻度データのみを用いて言語固有のウェブコーパスサイズを成功裏に推定できた。
  • 1996年から2000年の間に、英語以外のヨーロッパ言語が英語よりも速やかに成長しており、ウェブ上での多言語化が進んでいることが示された。
  • 英語以外の言語の成長が速いにもかかわらず、ウェブ全体の語数総量において英語は依然として支配的であった。
  • 推定された英語コーパスサイズは、データセット内における他の任意の非英語言語のコーパスサイズよりも顕著に大きかった。
  • モデルは複数の言語グループにわたり一貫性を示し、大規模なウェブ言語推定に信頼性があることを裏付けた。
  • 結果から、多言語コンテンツの拡大が著しく進んでおり、ウェブ上での英語独占の仮定が揺るがされていることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。