Skip to main content
QUICK REVIEW

[論文レビュー] The Lambert Way to Gaussianize skewed, heavy tailed data with the inverse of Tukey's h transformation as a special case

Georg M. Goerg|arXiv (Cornell University)|Oct 11, 2010
Plant Water Relations and Carbon Dynamics参考文献 24被引用数 4
ひとこと要約

本稿では、尾パラメータ δ ≥ 0 を導入することで、任意の確率変数の重尾バージョンを生成可能なパラメトリックかつ全単射変換—ラマヌジャンのW関数—を導入する。δ = 0 の場合、分布は変化しない。δ > 0 の場合、より重い尾が生じる。正規分布に適用した場合、これはトゥーキーのh分布に帰着する。本手法は尾の除去に向けた明示的な逆変換を提供するとともに、CDFおよびPDFの解析的表現を提示する。著者らの知る限り、本稿はトゥーキーのh分布のPDFおよびCDFについて、文献上初の閉形式導出を提供する。

ABSTRACT

I present a parametric, bijective transformation to generate heavy tail versions Y of arbitrary RVs X ~ F. The tail behavior of the so-called 'heavy tail Lambert W x F' RV Y depends on a tail parameter delta >= 0: for delta = 0, Y = X, for delta > 0 Y has heavier tails than X. For X being Gaussian, this meta-family of heavy-tailed distributions reduces to Tukey's h distribution. Lambert's W function provides an explicit inverse transformation, which can be estimated by maximum likelihood. This inverse can remove heavy tails from data, and also provide analytical expressions for the cumulative distribution (cdf) and probability density function (pdf). As a special case, these yield explicit formulas for Tukey's h pdf and cdf - to the author's knowledge for the first time in the literature. Simulations and applications to S&P 500 log-returns and solar flares data demonstrate the usefulness of the introduced methodology. The R package LambertW (this http URL) implementing the presented methodology is publicly available at CRAN.

研究の動機と目的

  • 任意の確率変数の重尾バージョンを生成可能であり、同時に全単射性を保つ柔軟なパラメトリック変換の開発。
  • トゥーキーのh分布の確率密度関数および累積分布関数に対する解析的表現の欠如に起因する課題の解消。
  • 可逆変換を用いた重尾の除去手法の提供。
  • トゥーキーのh分布の適用範囲を、より広範な分布族のメタファミリー内に統合することによる拡張。
  • 歪度および重尾データの統計的モデリングに適した計算可能で最尤推定可能なフレームワークの提供。

提案手法

  • 尾の重さを制御するパrameter δ ≥ 0 を用いた変換 Y = T(X; δ) を提案。δ = 0 の場合、元の分布 X が得られる。
  • ラマヌジャンのW関数を用いて明示的な逆変換を導出し、重尾分布から元のデータへの逆変換を可能にする。
  • 尾パラメータ δ およびその他の分布パラメータの推定に最尤推定法を適用。
  • 得られた分布の累積分布関数(CDF)および確率密度関数(PDF)の解析的表現を導出。
  • X ~ N(0,1) の場合、得られる分布がトゥーキーのh分布に帰着することを示す。
  • 実用的応用および再現可能性を目的として、CRANに公開済みのRパッケージLambertWで本手法を実装。

実験結果

リサーチクエスチョン

  • RQ1任意の確率変数に対して、1つの尾パラメータで重尾バージョンを生成可能な一般化された全単射変換を構築可能か?
  • RQ2この変換の逆変換は、実世界のデータから重尾を効果的に除去可能か?
  • RQ3本フレームワークを用いて、トゥーキーのh分布のPDFおよびCDFについて明示的な解析的表現を導出可能か?
  • RQ4本手法は、金融リターンや太陽フレアなどの実際の歪度および重尾データのモデリングにおいて、どの程度の性能を示すか?
  • RQ5本手法は最尤推定に適しており、統計ソフトウェアにおける実装が可能か?

主な発見

  • ラマヌジャンのW変換は、任意の確率変数 X を尾パラメータ δ ≥ 0 で制御する単一のパrameter を用いて、重尾バージョンを効果的に生成可能である。
  • δ > 0 の場合、得られる分布 Y は X よりも重い尾を持つようになり、尾の重さの度合いは δ によって制御される。
  • X が正規分布の場合、得られる分布はトゥーキーのh分布に帰着し、本手法はそのPDFおよびCDFについて、文献上初の既知の閉形式解析的表現を提供する。
  • 逆変換により、尾の過剰を除去することで重尾データのノイズ除去が効果的に行えるようになり、正規化が可能となる。
  • S&P 500のリターンおよび太陽フレアデータへのシミュレーションおよび実データ応用により、本手法の頑健性および実用的有用性が確認された。
  • CRANに公開済みのRパッケージLambertWにより、本手法の再現可能かつスケーラブルな実装が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。