Skip to main content
QUICK REVIEW

[論文レビュー] Patterns of i.i.d. Sequences and Their Entropy

Gil I. Shamir|arXiv (Cornell University)|May 10, 2006
Cellular Automata and Applications被引用数 3
ひとこと要約

この論文は、i.i.d. 系列からのパターンのエントロピーのタイトな上限と下限を導出し、アルファベットが大きい場合にi.i.i.d. エントロピーからパターンエントロピーが顕著に減少することを示している—しばしばユニバーサルコーディングの再冗長性バウンドを上回る。これらのバウンドは、ソースエントロピー、アルファベットサイズ、確率分布に依存し、アルファベットサイズがパターン長を上回る場合のパックドアルファベットに対して補正項を含む。

ABSTRACT

Bounds on the entropy of patterns of sequences generated by independently identically distributed (i.i.d.) sources are derived. A pattern is a sequence of indices that contains all consecutive integer indices in increasing order of first occurrence. If the alphabet of a source that generated a sequence is unknown, the inevitable cost of coding the unknown alphabet symbols can be exploited to create the pattern of the sequence. This pattern can in turn be compressed by itself. The bounds derived here are functions of the i.i.d. source entropy, alphabet size, and letter probabilities. It is shown that for large alphabets, the pattern entropy must decrease from the i.i.d. one. The decrease is in many cases more significant than the universal coding redundancy bounds derived in prior works. The pattern entropy is confined between two bounds that depend on the arrangement of the letter probabilities in the probability space. For very large alphabets whose size may be greater than the coded pattern length, all low probability letters are packed into one symbol. The pattern entropy is upper and lower bounded in terms of the i.i.d. entropy of the new packed alphabet. Correction terms are provided for both upper and lower bounds. The bounds are used to approximate the pattern entropy for various specific distributions, with focus on uniform and monotonic ones. Tight bounds are obtained on the pattern entropy even for distributions that have infinite i.i.d. entropy rates.

研究の動機と目的

  • i.i.d. ソースから生成されるパターンのエントロピーのタイトなバウンドを導出すること、特にアルファベットが未知の場合に焦点を当てる。
  • 特にユニバーサルコーディング再冗長性バウンドとの比較において、パターン圧縮によるエントロピー低減を定量化すること。
  • 文字確率の配置がパターンエントロピーのバウンドに与える影響を分析すること。
  • 一様分布および単調分布の下でのパターンエントロピーの近似を提供すること。
  • 無限のi.i.d. エントロピー率を有する分布に対してもバウンドを確立すること。

提案手法

  • パターンを、各異なる記号の最初の出現に対応するインデックスを昇順に並べた列として定義する。
  • i.i.d. ソースエントロピー、アルファベットサイズ、個々の文字確率を関数としてそのようなパターンのエントロピーをモデル化する。
  • 低確率の記号を1つの記号にグループ化することで、解析を簡素化するための大規模アルファベット用のパッキング技術を導入する。
  • パックドアルファベットのエントロピーを用いて、明示的な補正項を含めたパターンエントロピーの上限と下限を導出する。
  • 一様分布や単調分布などの特定の分布にバウンドを適用し、タイトさと正確性を評価する。
  • 情報理論的不等式を用いて、特に大規模アルファベットの漸近的状態において、パターンエントロピーと元のi.i.d. ソースエントロピーを関連付ける。

実験結果

リサーチクエスチョン

  • RQ1i.i.d. 系列から導かれるパターンのエントロピーは、元のソースのエントロピーと比べてどのように異なるのか、特にアルファベットが大きい場合に。
  • RQ2パターンエントロピーは、i.i.d. ソースエントロピーと文字確率の分布に基づいて、どの程度バウンド可能か。
  • RQ3低確率の記号を1つの記号にパックする際、補正項がパターンエントロピーのバウンドの正確性をどの程度向上させるか。
  • RQ4無限のi.i.d. エントロピー率を有する分布に対しても、パターンエントロピーのタイトなバウンドを確立できるか。
  • RQ5導出されたバウンドは、既存のユニバーサルコーディング再冗長性バウンドと比べて、どの程度のスケールで異なるか。

主な発見

  • 大規模なアルファベットでは、パターンエントロピーはi.i.d. ソースエントロピーよりも厳密に小さく、その低減はしばしば既知のユニバーサルコーディング再冗長性バウンドを上回る。
  • パターンエントロピーのバウンドは、エントロピーまたはアルファベットサイズだけでなく、確率空間における文字確率の配置に強く依存する。
  • アルファベットサイズがパターン長を上回る場合、低確率の記号を1つの記号にパックすることで、定量可能な補正項を含む有効な近似が得られる。
  • 無限のi.i.d. エントロピー率を有する分布に対しても、パターンエントロピーの上限と下限はタイトであり、そのロバストネスを示している。
  • 一様分布および単調分布の下では、バウンドは真のパターンエントロピーを精度良く近似でき、補正項が正確性を向上させている。
  • 導出されたバウンドは、特に大規模アルファベットの状況下で、先行するユニバーサルコーディング再冗長性バウンドよりもタイトである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。