Skip to main content
QUICK REVIEW

[論文レビュー] A Natural Law of Succession

Eric Sven Ristad|ArXiv.org|Aug 30, 1995
Algorithms and Data Compression参考文献 7被引用数 46
ひとこと要約

本稿は、有限のアルファベットと非一様な記号使用に関する事前知識を組み込むことで、ラプラスの法則およびリドストーンの法則を凌駂数える、多項確率推定のための画期的な「自然な継続の法則」を提案する。理論的および実験的に、自然な法則が予測誤差を最小化し、多様な実世界のファイルにおいて優れたデータ圧縮を達成することを示し、文字列長およびアルファベットサイズが大きいほど性能向上が顕著になる。

ABSTRACT

Consider the problem of multinomial estimation. You are given an alphabet of k distinct symbols and are told that the i-th symbol occurred exactly n_i times in the past. On the basis of this information alone, you must now estimate the conditional probability that the next symbol will be i. In this report, we present a new solution to this fundamental problem in statistics and demonstrate that our solution outperforms standard approaches, both in theory and in practice.

研究の動機と目的

  • 有限の文字列における観測頻度に基づく離散記号の条件付き確率推定という根本的問題に取り組む。
  • 自然データにおける記号使用の現実的な仮定(非一様なアルファベットカバレッジなど)を反映するパラメータフリーの確率モデルを開発する。
  • ラプラスの法則およびリドストーンの法則の理論的裏付けに基づく代替手法を提供し、新規事象の過大評価および一般的な事象の過小評価を回避する。
  • データ圧縮という予測精度の直接的指標を用いて、新法則の優位性を実証的に検証する。
  • 有限の文字列においても、他の関数と比較して確率を定数倍の範囲に収めるという点で、自然な法則の理論的堅牢性を確立する。

提案手法

  • アルファベット内におけるすべての可能な記号基数の均一性に基づく新しい事前分布を提案し、記号確率の均一性ではなく、記号基数の均一性に基づく。
  • この情報のない事前分布の下でベイズ推定を実行し、自然な継続の法則を導出する。その式は、均一な基数の場合:p(i|n_i, n, k) = (n_i + 1) / (n + k) であり、均一なサブセットの場合にはより洗練されたバージョンが得られる。
  • 時間系列予測および分類における多項分布推定にこの法則を適用し、状態遷移確率およびクラス所属確率をモデル化する。
  • カーディルコーパスにおけるデータ圧縮を用いて性能を評価し、自然な法則をラプラスの法則、リドストーンの法則、および4つの恣意的推定ルールと比較する。
  • 経験的エントロピーを下限として用い、経験的分布との比較で圧縮効果(バイト単位)を測定する。
  • 非定常性が著しいファイル(例:'progl' および 'pic')の失敗事例を分析し、耐性および限界を評価する。

実験結果

リサーチクエスチョン

  • RQ1有限の文字列における多項確率推定において、ラプラスの法則およびリドストーンの法則をどのように改善できるか?
  • RQ2有限の文字列にすべてのアルファベット記号が現れるとは限らないという自然な仮定を最もよく反映する事前分布は何か?
  • RQ3理論的および実践的両面で標準的手法を凌駆するパラメータフリーの継続の法則は存在するか?
  • RQ4自然な法則は、実世界のデータ圧縮タスクにおける予測誤差をどの程度低減するか?
  • RQ5自然な法則の性能は、恣意的推定ルールと比較して、どの程度圧縮効率に優れているか?

主な発見

  • 特に均一な基数バージョンの自然な継続の法則が、カーディルコーパス全体で最良の圧縮性能を達成し、'bib' ファイルではラプラスの法則を最大177バイトも上回った。
  • 自然な法則は、カーディルコーパスの全19ファイルにおいて常に1位または2位にランクされ、均一な基数法則が最も効果的で、均一なサブセット法則が2番目に効果的であった。
  • ラプラスの法則は全体的に最悪の性能を示し、特に新規記号がまれな場合に有限の文字列において圧縮損失が無限に増大する傾向がある。
  • 'pic' ファイル(最初の52,422バイトに3種類の異なる文字しか含まれない)では、自然な法則がわずかに性能を発揮しないが、これは非定常性に起因するものであり、手法自体の欠陥とは見なされない。
  • 自然な法則の総合的確率割り当ては、他の任意の確率関数と比較して定数倍の範囲内に収まり、有限の文字列に対しても理論的堅牢性が証明された。
  • 4つの代替手法のうち、手法D(恣意的ルールの1つ)が最も優れていたが、特に構造化されたファイル('bib' および 'book1')では自然な法則に大きく劣っていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。