Skip to main content
QUICK REVIEW

[論文レビュー] Distinct word length frequencies: distributions and symbol entropies

Reginald D. Smith|arXiv (Cornell University)|Jul 10, 2012
Fractal and DNA sequence analysis参考文献 18被引用数 31
ひとこと要約

本稿は、言語ごとの異なる語の長さの周波数分布を、実測データと情報理論を用いて分析する。文字と空白の確率に基づく統計モデルを導出し、語の長さごとの頻度を予測するとともに、条件付きエントロピーを用いて語彙の分布を推定し、複数の言語で実際の言語的データと強い一致を示した。

ABSTRACT

The distribution of frequency counts of distinct words by length in a language's vocabulary will be analyzed using two methods. The first, will look at the empirical distributions of several languages and derive a distribution that reasonably explains the number of distinct words as a function of length. We will be able to derive the frequency count, mean word length, and variance of word length based on the marginal probability of letters and spaces. The second, based on information theory, will demonstrate that the conditional entropies can also be used to estimate the frequency of distinct words of a given length in a language. In addition, it will be shown how these techniques can also be applied to estimate higher order entropies using vocabulary word length.

研究の動機と目的

  • 実測データを用いて自然言語における異なる語の長さの分布をモデル化すること。
  • 周辺文字確率から語の長さ頻度と分散を結びつける統計的フレームワークを導出すること。
  • 特に条件付きエントロピーを含む情報理論的手法を用いて、語の長さごとの語の頻度を推定すること。
  • 複数の言語にわたってモデルを検証し、その予測能力を評価すること。
  • 語の長さを用いた高次エントロピーの使用が、語彙構造を特徴付けるのにどのように寄与するかを検討すること。

提案手法

  • 実際のコーパスデータを用いた、複数言語における語の長さ頻度の実証的分析。
  • 周辺文字および空白の出現確率に基づく確率モデルを導出し、語の長さごとの頻度を予測すること。
  • 言語における語の長さの情報量を推定するために、条件付きエントロピーを用いること。
  • シャノンエントロピーおよび高次エントロピー測度を語の長さ分布に適用すること。
  • 理論的分布を観測データに適合させ、適合度を評価すること。
  • モデルの予測結果と言語コーパスからの実際の語の頻度データを比較すること。

実験結果

リサーチクエスチョン

  • RQ1異なる言語において、異なる語の頻度は語の長さにどのように依存するか?
  • RQ2文字および空白の確率に基づく統計モデルは、語の長さ頻度分布を正確に予測できるか?
  • RQ3条件付きエントロピーは、与えられた長さの異なる語の数をどの程度正確に推定できるか?
  • RQ4エントロピーに基づく理論的モデルは、実際の言語における語の長さ頻度とどの程度一致するか?
  • RQ5語の長さから導かれる高次エントロピーは、語彙構造に関する洞察を提供できるか?

主な発見

  • 文字および空白の周辺確率のみを用いて、各長さの異なる語の数を正確に予測できる。
  • 異なる語の長さの分布は、文字確率から導かれるネガティブ・バイノミアル型の分布と同様に、予測可能である。
  • 条件付きエントロピー値は観測された語の頻度分布と強く相関しており、情報理論的手法の妥当性が裏付けられた。
  • 平均語の長さと分散は、同じ基本的な文字確率モデルから解析的に導出可能である。
  • モデルは複数の言語で一貫した性能を示しており、一般化可能性が確認された。
  • 語の長さに基づく高次エントロピー測度は、語彙の多様性と構造に関する追加の洞察を提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。