QUICK REVIEW

[論文レビュー] Criticality in Formal Languages and Statistical Physics

Henry W. Lin, Max Tegmark|arXiv (Cornell University)|Jun 21, 2016

Fractal and DNA sequence analysis参考文献 31被引用数 30

ひとこと要約

本稿は、統計物理学における臨界現象と形式的言語における長距離相関の間の形式的関係を確立し、文脈自由文法では記号間の相互情報量がべき則に従って減少するのに対し、正則文法では指数関数的減少が生じることを示している。主な結果は、自然言語、音楽、ゲノム配列におけるべき則的相関を再帰的生成プロセスによって説明する理論的導出による有理相互情報量の導出である。

ABSTRACT

We show that the mutual information between two symbols, as a function of the number of symbols between the two, decays exponentially in any probabilistic regular grammar, but can decay like a power law for a context-free grammar. This result about formal languages is closely related to a well-known result in classical statistical mechanics that there are no phase transitions in dimensions fewer than two. It is also related to the emergence of power-law correlations in turbulence and cosmological inflation through recursive generative processes. We elucidate these physics connections and comment on potential applications of our results to machine learning tasks like training artificial recurrent neural networks. Along the way, we introduce a useful quantity which we dub the rational mutual information and discuss generalizations of our claims involving more complicated Bayesian networks.

研究の動機と目的

形式的言語の統計的相関構造を調査し、統計物理学における臨界現象と関連付ける。
マークフ・モデルが予測する指数関数的減少とは対照的に、自然言語の系列が長距離のべき則的相関を示す理由を説明する。
長距離依存性を測定するための新しい指標として「有理相互情報量」の概念を導入し、その分析を行う。
文脈自由文法が自然に相互情報量のべき則的減少を生じるのに対し、正則文法は指数関数的減少を生じることを示す。
これらの発見を、乱流、宇宙インフレーション、再帰的ニューラルネットワークにおける機械学習の応用といった広範な現象と結びつける。

提案手法

再帰的文法生成の深さ $ \theta $ に対する階層的事前分布を用いたベイズ推論により、記号間隔 $ d $ 条件付きの期待有理相互情報量 $ I_R $ を導出する。
深さ $ \theta $ における記号間隔 $ d $ の分布を、二分木的分岐を反映する平均 $ 2^{\theta-1} $ の三角分布としてモデル化する。
事前分布 $ p(\theta) \propto 2^\theta $（$ \theta \neq 0 $）を設定し、$ \theta_{\text{max}} $ によるカットオフを経て正規化し、後に無限大にとる。
大規模な $ d $ に対して積分近似を用いて、条件付き期待値 $ \bb{E}[2^{-k_2 \theta} \big| d] $ を計算し、べき則的減少 $ I_R \backsim d^{-k_2} $ を得る。
有限な文字列長を考慮した正確な離散和表現を提供し、数値シミュレーションと完全に一致する。
有限標本におけるバイアスを最小限に抑えるために、ガンマ関数を用いたGrassbergerのエントロピー推定法を用いて、実データからの相互情報量を計算する。

実験結果

リサーチクエスチョン

RQ1なぜ自然言語の系列では、マークフ的プロセスが予測する指数関数的減少とは対照的に、遠く離れた記号間の相互情報量がべき則的減少を示すのか？
RQ2文脈自由文法の再帰的構造と統計物理学における臨界現象との間の形式的関係は何か？
RQ3確率的正則文法と文脈自由文法において、二つの記号間の相互情報量は、それらの間隔の関数としてどのように減少するか？
RQ4「有理相互情報量」という概念を用いることで、系列生成におけるマークフ的プロセスと非マークフ的プロセスを定量的に区別できるか？
RQ5これらの発見は、自然言語のモデリングや機械学習における再帰的ニューラルネットワークの訓練にどのような意味を持つのか？

主な発見

確率的正則文法では、二つの記号間の相互情報量は、間隔とともに指数関数的に減少し、マークフ的プロセスと整合する。
文脈自由文法では、相互情報量はべき則的減少 $ I_R \backsim d^{-k_2} $ を示し、$ k_2 $ は文法の分岐率および遷移確率に関連するパラメータである。
離散和を用いた有理相互情報量 $ I_R $ の導出式は、有限な文字列長を考慮した場合に数値シミュレーションと正確に一致し、わずかなずれは文字列長の有限性に起因する。
べき則的減少は、2次元統計系（イジング模型など）における臨界現象と類似する、文脈自由文法の階層的・再帰的構造に起因する。
有理相互情報量推定子 $ I_R(X,Y) = \rho(X,Y)^2 / (P(0)P(1))^2 $ は、バイアス補正が施された、バイナリ系列における長距離依存性の強固な測定指標を提供する。
これらの結果は、人工再帰的ニューラルネットワークが、マークフ的構造を暗黙的に仮定している場合、自然言語における長距離依存性を正しく捉えられない可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。