QUICK REVIEW

[論文レビュー] Assigning a value to a power likelihood in a general Bayesian model

Chris Holmes, Stephen G. Walker|arXiv (Cornell University)|Jan 30, 2017

Statistical Methods and Inference参考文献 12被引用数 26

ひとこと要約

この論文は、統計モデルが誤りである場合に一般化ベイズ推論におけるパワー・パラメータ $ w $ を一貫的で情報理論的根拠に基づいた方法でキャリブレーションする手法を提案する。標準的およびパワー付き尤度モデルの下で、事前分布と事後分布間の事前期待情報量を等しくすることで、一貫性のある学習を保証し、モデルが正しい場合には自動的に $ w=1 $ を与える。$ w \neq 1 $ はモデルの誤りを示し、それに応じて学習速度を調整する。

ABSTRACT

Bayesian approaches to data analysis and machine learning are widespread and popular as they provide intuitive yet rigorous axioms for learning from data; see Bernardo and Smith (2004) and Bishop (2006). However, this rigour comes with a caveat that the Bayesian model is a precise reflection of Nature. There has been a recent trend to address potential model misspecification by raising the likelihood function to a power, primarily for robustness reasons, though not exclusively. In this paper we provide a coherent specification of the power parameter once the Bayesian model has been specified in the absence of a perfect model.

研究の動機と目的

真のデータ生成過程を正確に表現しない尤度関数を仮定するベイズ推論におけるモデル誤り指定の問題に対処すること。
一般化事後分布 $ p_w(\theta|x) \propto f(x;\theta)^w p(\theta) $ のパワー・パラメータ $ w $ に値を割り当てる、原理的かつ一貫性のある方法を提供すること。
学習速度を $ w $ を通じてキャリブレーションし、観察データからの事前期待情報量が正しいモデル下での場合と同一になるようにすること。
対数尤度を損失関数とみなすことで、情報理論的原則に従い、モデルが真でない場合でもベイズ更新の一貫性を維持すること。

提案手法

パワー付き尤度モデルからの事前期待情報量 $ I_w(x) $ を、標準ベイズモデルからの事前期待情報量 $ I_1(x) $ と一致させる。
真の密度 $ f_0(x) $ とモデル密度 $ f(x;\theta) $ 間のカルバック・ライブララー距離を用いて、この距離を最小化するパラメータ $ \theta_0 $ を定義する。
方程式 $ \int I_w(x) f_0(x) dx = \int I_1(x) f(x;\theta_0) dx $ を解くことでパワー・パラメータ $ w $ を設定し、両モデル下での期待情報量が等しくなるように保証する。
情報量は、事前分布と事後分布の間のフィッシャー情報距離を用いて測定され、情報の代理指標として二乗スコア関数が用いられる。
実際の推定を可能にするために、$ (x,\theta) $ の同時密度を推定するため、経験分布 $ F_n(x) $ を用い、仮定された $ f(x;\theta) $ を $ f(x;\widehat{\theta}) $ に置き換える。
パワー付き尤度下でのスコア関数は $ S_w(x,\theta) = w S(x,\theta) $ であり、両モデル下での期待二乗スコアを等しくすることで $ w $ のキャリブレーションが達成される。

実験結果

リサーチクエスチョン

RQ1統計モデルが誤り指定されている場合、一般化ベイズ推論におけるパワー・パラメータ $ w $ を形式的にどのようにキャリブレーションできるか？
RQ2どの原理が $ w $ の選択が、真のデータ生成分布へのカルバック・ライブララー距離を最小化するパラメータ $ \theta_0 $ についての一貫性のある学習を保証するか？
RQ3なぜ標準的およびパワー付き尤度モデルの両方において、観察データからの事前期待情報量が同一でなければならないのか？
RQ4モデル誤り指定の文脈において、事前分布と事後分布の間のフィッシャー情報距離を用いて、意味のある情報量の測定基準を定義できるか？

主な発見

モデルが正しく指定されている場合には、この手法は自動的に $ w=1 $ を与え、標準ベイズ事後分布を回復する。
モデルが誤り指定されている場合には、$ w \neq 1 $ を得られ、モデルの適合度に応じて学習速度を調整する。
キャリブレーションされた $ w $ により、単一の観察からの事前期待情報量が、パワー付きモデルと標準モデルの両方で同一になることが保証され、一貫性が維持される。
この手法は二乗スコア関数を情報量の測定基準として用い、フィッシャー情報と整合的であり、観測データを用いた経験的キャリブレーションが可能である。
この手法はモデル誤り指定に対してロバストであり、情報量の交換が両モデルで一致するようにすることで、事後分布の不確実性の過小または過大評価を回避する。
数値的実験の結果、キャリブレーションされた $ w $ を用いた事後分布は、標準ベイズ事後分布よりも正しいモデル精度下での事後分布に近い結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。