QUICK REVIEW

[論文レビュー] Formal Limitations on the Measurement of Mutual Information

David McAllester, Karl Stratos|arXiv (Cornell University)|Nov 10, 2018

Machine Learning and Algorithms参考文献 27被引用数 66

ひとこと要約

本論文は、有限サンプルから推定する際の相互情報量、KLダイバージェンス、エントロピーの分布に依存しない高信頼下界に対する普遍的な統計的制約を証明し、実務的な差分エントロピー（DoE）推定量を提案して、大規模なMIを実務的に意味ある推定が可能であることを示す。

ABSTRACT

Measuring mutual information from finite data is difficult. Recent work has considered variational methods maximizing a lower bound. In this paper, we prove that serious statistical limitations are inherent to any method of measuring mutual information. More specifically, we show that any distribution-free high-confidence lower bound on mutual information estimated from N samples cannot be larger than O(ln N ).

研究の動機と目的

有限データからの相互情報の推定の難しさと下限推定量の限界を動機づける。
分布に依存しない高信頼下界が標本サイズの対数成長を超えることはできないという形式的な結果を示す。
KLダイバージェンスとエントロピー推定に関する以前の否定的な結果を統一・一般化する。
相互情報を推定する実用的な代替として差分エントロピー（DoE）アプローチを提案する。
合成データおよび実データ上でDoEが意味のあるMI推定をもたらすことを経験的に示す。

提案手法

Donsker-Varadhanフレームワークを用いてKLダイバージェンスの下限を分析し、標本サイズNに対してそれがO(log N)を超えられないことを示す。
エントロピー推定に対する分布依存しない下界の制約を証明し、それもO(log N)にスケールする。
これらの制約が、分布に依存しないMI推定量の普遍的な制約を意味することを示す。
MIをエントロピーの差として表現し、エントロピー項をクロスエントロピー最小化によって推定することを提案する。
DoE推定量を導入し、I(X;Y)をH(pX, qX) − H(pX|Y, qX|Y)として、クロスエントロピーロスを最小化することによって計算する。
クロスエントロピーの上界が大きなエントロピーにとって有益になりうる理由についての理論的議論と、DoEの性能に関する経験的証拠を提供する。

実験結果

リサーチクエスチョン

RQ1N個のサンプルから推定された、分布に依存しない高信頼下界は、Nの対数関数を超えることができるだろうか？
RQ2KLダイバージェンスまたはエントロピーの下界は、MIを必ず制限して有限サンプルからの正確な推定を妨げるのだろうか？
RQ3対数の障壁を回避し、実世界の大きなMI設定で有用であり続ける実用的なMI推定量は存在するだろうか？
RQ4MIをエントロピーの差として表現し、クロスエントロピーを用いて推定することは、変分下界よりも堅牢な代替手段を提供するだろうか？
RQ5DoEベースの推定値は、合成データセットおよび実データセット上で、既存の推定量とどのように比較されるか？

主な発見

N個のサンプルから推定されたMIの分布に依存しない高信頼下界は、ln Nのオーダーの関数を超えることはできない。
KLダイバージェンスおよびエントロピーの下界も同様の対数制約を受け、普遍的なMI推定を制約する。
クロスエントロピーの下界に基づくDoE推定量は、正式な下限保証がなくとも、実務的に大きなMIを意味ある推定が可能。
DoEは、合成の相関データおよび実データにおいて、既存の変分下界推定量を実験で上回る。
DoEを用いた場合、関連する記事ペアで120ビット超、翻訳ペアで54ビットなどの大きなMIが実証的に得られ、シャッフルペアはほぼゼロのMIを示すという実証結果。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。