Skip to main content
QUICK REVIEW

[論文レビュー] Semi-parametric inference for the means of heavy-tailed distributions

Matt Taddy, Hedibert F. Lopes|arXiv (Cornell University)|Feb 25, 2016
Bayesian Methods and Mixture Models参考文献 25被引用数 2
ひとこと要約

この論文は、データの本体部分を非パラメトリック推定、尾部を極値理論に基づくパラメトリックモデルで扱うことで、重たい裾の分布の平均に関する推論のための半パラメトリックベイジアン枠組みを提案する。後方分布サンプリングのための効率的な独立メトロポリス・ハスティングスアルゴリズムを導入し、数千万人のユーザーを含むeBayのデータを用いたA/Bテストおよびユーザー支出予測において、改善された推定を実証した。

ABSTRACT

Heavy tailed distributions present a tough setting for inference. They are also common in industrial applications, particularly with Internet transaction datasets, and machine learners often analyze such data without considering the biases and risks associated with the misuse of standard tools. This article outlines a procedure for inference about the (possibly conditional) mean of a heavy tailed distribution that combines nonparametric inference for the bulk of the support with parametric inference – motivated from extreme value theory – for the heavy tail. We are able to derive analytic posterior conditional means and variances for the expected value of a heavy tailed distributivo. We also introduce a simple and novel independence Metropolis Hastings algorithm that samples from the distribution for tail parameters via small adjustments to a parametric bootstrap, and through this algorithm are able to provide comparisons between our framework and frequentist semiparametric inference. We also provide a modeling extension that shrinks tails across distributions to an overall background tail. We illustrate on two examples: treatment effect estimation on a set of 72 A/B experiments, and the fitting of regression trees for prediction of user spending. Both use data from tens of millions of users of eBay.com.

研究の動機と目的

  • インターネット取引ログなど産業応用で一般的な重たい尾の分布に標準的手法を適用した場合に生じる偏りのある推論の問題に取り組む。
  • 本体と極値の両方を考慮した、重たい尾の分布の平均を推定する強固な手法を開発する。
  • 非パラメトリックおよびパラメトリック部を統合した統一ベイジアン枠組みにより、期待値に関する信頼性のある後方分布推論を可能にする。
  • パラメトリックブートストラップへの微小な調整を施したことで、尾部パラメータのサンプリング効率が向上する、新しいMCMCアルゴリズムを導入する。
  • 複数の分布にわたる尾部パラメータを共通のバックグラウンド尾構造へ収縮させるモデルの拡張を実現する。

提案手法

  • 実現分布関数またはカーネル密度推定を用いて、分布の本体部分を非パラメトリックにモデル化する。
  • 極値理論から導かれる一般化パレート分布(GPD)を用いて、尾部をパラメトリックにモデル化する。
  • 非パラメトリックな本体推定とパラメトリックな尾部推定を組み合わせることで、平均の共同後方分布を構築する。
  • 統合モデル下での期待値の後方条件付き平均および分散について、解析的表現を導出する。
  • パラメトリックブートストラップに基づく尾部パラメータの提案を用い、完全な後方密度を用いて受容率を計算する独立メトロポリス・ハスティングスアルゴリズムを実装する。
  • 複数の分布にわたる尾部情報のプールを可能にする階層的収縮成分を導入する。

実験結果

リサーチクエスチョン

  • RQ1非パラメトリック推定と極値理論に基づくモデリングを統合することで、重たい尾の分布における平均推定をどのように改善できるか?
  • RQ2パラメトリックブートストラップへの調整を基盤とする新しいMCMCアルゴリズムは、ベイジアン枠組みにおいて尾部パラメータの効率的かつ正確なサンプリングを可能にするか?
  • RQ3提案手法の半パラメトリック法は、頻度主義の半パラメトリック推論と比較して、信頼区間のカバレッジと精度の面でどのように異なるか?
  • RQ4複数の分布にわたる尾部パラメータの収縮は、推定の安定性と正確性をどの程度向上させるか?
  • RQ5本フレームワークは、数千万件の観測値を持つ実世界の産業データセット(例:A/Bテストおよびユーザー支出予測)に効果的に適用可能か?

主な発見

  • 提案された半パラメトリックベイジアン枠組みにより、重たい尾の分布の期待値に関する後方条件付き平均および分散を解析的に計算可能である。
  • 独立メトロポリス・ハスティングスアルゴリズムは、最小限のチューニングで尾部パラメータの効率的サンプリングを実現し、収束性および有効サンプルサイズの点で標準MCMCを上回った。
  • 複数の分布にわたる収縮を組み込んだモデルは、尾部パラメータ推定の分散を低減し、ユーザー支出回帰タスクにおける予測精度を向上させた。
  • 72件のeBay実験におけるA/Bテストでは、データが著しく歪んでいる場合でも、古典的t検定と比較してより信頼性の高い処置効果推定が得られた。
  • 数千万人のユーザーを含むデータセットにおいて、スケーラビリティと実産業現場での実用性を示す、堅牢な性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。