QUICK REVIEW

[論文レビュー] Adaptive Lasso and group-Lasso for functional Poisson regression

Stéphane Ivanoff, Franck Picard|arXiv (Cornell University)|Dec 22, 2014

Bayesian Methods and Mixture Models参考文献 45被引用数 28

ひとこと要約

本稿では、高次元の度数データにおける強度関数を推定するための辞書ベースのアプローチを用いて、関数的ポアソン回帰における適応的LassoおよびグループLasso手順を提案する。データ駆動型のペナルティ重みをポアソン固有の集中不等式を用いて導出することで、オラクル的意味での理論的最適性を達成し、シミュレーションおよびNGSシークエンシングデータにおいて優れた経験的性能を示す。

ABSTRACT

High dimensional Poisson regression has become a standard framework for the analysis of massive counts datasets. In this work we estimate the intensity function of the Poisson regression model by using a dictionary approach, which generalizes the classical basis approach, combined with a Lasso or a group-Lasso procedure. Selection depends on penalty weights that need to be calibrated. Standard methodologies developed in the Gaussian framework can not be directly applied to Poisson models due to heteroscedasticity. Here we provide data-driven weights for the Lasso and the group-Lasso derived from concentration inequalities adapted to the Poisson case. We show that the associated Lasso and group-Lasso procedures are theoretically optimal in the oracle approach. Simulations are used to assess the empirical performance of our procedure, and an original application to the analysis of Next Generation Sequencing data is provided.

研究の動機と目的

分散の不安定性による標準Lassoのキャリブレーション不能性に起因する、異分散性を伴う高次元ポアソン回帰の挑戦に取り組む。
ウェーブレットや基底関数のアプローチを一般化する、辞書に基づくフレームワークを構築し、強度関数のスパースで柔軟な推定を可能にする。
ポアソンモデルに理論的裏付けを与えるために、ポアソン固有の集中不等式を用いて導出したデータ駆動型ペナルティ重みをLassoおよびグループLassoに導入する。
一般枠組みの下でKullback-Leibler距離とヘルンダーレ距離を関数的不等式でバウンディングすることにより、LassoおよびグループLasso推定量のオラクル不等式を確立する。
グループLasso推定量が、理想のオラクルリスクの定数倍のリスクバウンドを達成することを示すことにより、提案手法の理論的最適性を確立する。
バッハ（2010）の補題2を活用し、有界な微分比を持つ凸関数枠組みを介して、Kullback-Leibler距離とヘルンダーレ距離を関連付ける。

提案手法

強度関数の対数を、辞書に属する既知のp個の基底関数の線形結合としてモデル化することで、柔軟かつスパースな表現を可能にする。
ポアソン固有の集中不等式から導出されたデータ駆動型重みを有するLassoおよびグループLassoペナルティを適用し、異分散性に対処する。
特にスケールや基底関数タイプ（例：ウェーブレットスケール）ごとに係数がグループ化される場合に、構造的スパarsityを活用するためグループLassoを用いる。
関数的不等式を用いてKullback-Leibler距離とヘルンダーレ距離をバウンディングすることで、LassoおよびグループLasso推定量のオラクル不等式を導出する。
グループLasso推定量が、理想のオラクルリスクの定数倍のリスクバウンドを達成することを示すことにより、理論的最適性を確立する。
バッハ（2010）の補題2を用い、有界な微分比を持つ凸関数枠組みを介して、Kullback-Leibler距離とヘルンダーレ距離を関連付ける。

実験結果

リサーチクエスチョン

RQ1異分散性下でのポアソン回帰に対して、適応的LassoおよびグループLassoは効果的にキャリブレーション可能か？
RQ2ポアソン集中不等式から導出されたデータ駆動型ペナルティ重みは、最適な推定性能をもたらすか？
RQ3Lasso／グループLassoを用いた辞書ベースのフレームワークは、高次元関数的ポアソン回帰においてオラクルに近い性能を達成できるか？
RQ4関数データにおける構造的スパarsityを捉える観点で、グループLasso手順は標準Lassoに比べて優れているか？
RQ5提案されたグループLasso推定量は、ポアソン設定下でどのような理論的性能保証（例：オラクル不等式）を有するか？

主な発見

提案された適応的LassoおよびグループLasso手順は、オラクル的意味で理論的最適性を達成しており、グループLasso推定量は次の形のオラクル不等式を満たす：$ K(f_0, \widehat{f}^{gL}) \leq (1+\varepsilon)\big(K(f_0,f_\beta) + B(\varepsilon,\mu) \frac{\alpha^2 |J(\beta)|}{\kappa_n^2} (\max_k \lambda_k^g)^2 \big) $。
ポアソン集中不等式から導出されたデータ駆動型ペナルティ重みにより、LassoおよびグループLasso推定量は、異分散性が存在する状況でも理論的に最適であることが保証される。
グループLasso推定量は、特に係数がスケールや基底関数タイプごとにグループ化される場合に、構造的スパarsityを標準Lassoよりも効果的に捉える。
シミュレーションにより、本手法が古典的手法のしきい値処理および分散安定化手法を上回る経験的優位性を示しており、特に度数が低い場合に顕著である。
次世代シークエンシングデータへの応用により、本手法が実世界の高次元度数データ解析における実用的有用性を示している。
理論的バウンディングにより、グループLasso推定量のリスクが、真の強度関数の滑らかさおよびデザインに依存する定数の倍以内に収束することが示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。