Skip to main content
QUICK REVIEW

[論文レビュー] Multiscale quantile regression

Laura Jula Vanegas, Merle Behr|arXiv (Cornell University)|Feb 25, 2019
Gene expression and cancer classification被引用数 3
ひとこと要約

本稿では、分布仮定を必要とせず、系列データにおける区分的定数の分位数関数を検出するマルチスケール分位数回帰手法を提案する。マルチスケール検定統計量を用いて誤り率を制御し、一貫性のあるセグメント選択を実現する。この手法は最小最大最適推定レートを達成し、二重ヒープを用いた動的計画法により一様信頼区間を構築可能であり、シミュレーションおよび遺伝子工学・イオンチャネルからの実データで検証されている。

ABSTRACT

We introduce a new methodology for analyzing serial data by quantile regression assuming that the underlying quantile function consists of constant segments. The procedure does not rely on any distributional assumption besides serial independence. It is based on a multiscale statistic, which allows to control the (finite sample) probability for selecting the correct number of segments S at a given error level, which serves as a tuning parameter. For a proper choice of this parameter, this tends exponentially fast to the true S, as sample size increases. We further show that the location and size of segments are estimated at minimax optimal rate (compared to a Gaussian setting) up to a log-factor. Thereby, our approach leads to (asymptotically) uniform confidence bands for the entire quantile regression function in a fully nonparametric setup. The procedure is efficiently implemented using dynamic programming techniques with double heap structures, and software is provided. Simulations and data examples from genetic sequencing and ion channel recordings confirm the robustness of the proposed procedure, which at the same hand reliably detects changes in quantiles from arbitrary distributions with precise statistical guarantees.

研究の動機と目的

  • 特定の誤差分布を仮定せずに系列データにおける分位数関数の変化を検出する非パラメトリック手法の開発。
  • 与えられた誤差水準において、正しいセグメント数 S を選択する有限標本確率をマルチスケール検定統計量で制御すること。
  • 一般条件下で、対数要因を除き最小最大最適推定レートを達成すること。セグメントの位置とサイズの推定において。
  • 完全に非パラメトリックな設定下で、分位数回帰関数全体に対する一様信頼区間を構築すること。
  • 実用的導入を可能にするために、動的計画法と二重ヒープ構造を用いた効率的な計算実装を提供すること。

提案手法

  • 分位数関数を未知のセグメント境界とサイズを持つ区分的定数関数としてモデル化する。
  • 複数スケールにわたる潜在的セグメント変化の有意性を評価するためにマルチスケール検定統計量を用い、有限標本における誤り率制御を確保する。
  • 調整パrameter は誤差水準を制御し、正しいセグメント数 S を選択する確率を支配する。
  • セグメント検出は、マルチスケール統計量を効率的に計算するために、二重ヒープ構造を用いた動的計画法により実行される。
  • 手順は、マルチスケール推論フレームワークを用いて、分位数回帰関数全体に対する一様信頼区間の構築を可能にする。
  • 系列の独立性を超えて分布に依存しないため、任意の誤差分布に対してもロバストである。

実験結果

リサーチクエスチョン

  • RQ1特定の誤差分布を仮定せずに、非パラメトリックな分位数回帰手法が分位数関数の変化を検出可能か?
  • RQ2区分的定数分位数関数のセグメント選択において、有限標本における誤り率制御はどのように達成できるか?
  • RQ3一般条件下でのセグメント位置とサイズの推定レートは何か? また、最小最大最適性と比較してどうなるか?
  • RQ4完全に非パラメトリックな設定下で、分位数回帰関数全体に対する一様信頼区間を構築可能か?
  • RQ5大規模な系列データに対して、マルチスケール検定統計量はどの程度効率的に計算可能か?

主な発見

  • 適切に選択された誤差水準調整パrameter に対して、標本サイズが増加するにつれて、正しいセグメント数 S を選択する確率は指数関数的に1に収束する。
  • 一般条件下で、対数要因を除き最小最大最適推定レートを達成する。セグメントの位置とサイズの推定において。
  • 分位数回帰関数全体に対する一様信頼区間は、有効な有限標本カバレッジを有するように構築された。
  • 二重ヒープ構造を用いた動的計画法アルゴリズムにより、計算が効率的となり、実世界のデータにスケーラブルであることが可能になった。
  • 遺伝子シークエンシングおよびイオンチャネル記録からの実データとシミュレーションにより、ロバストな性能と多様な分布にわたる分位数変化の高精度検出が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。