Skip to main content
QUICK REVIEW

[論文レビュー] Data thinning for convolution-closed distributions

Anna Neufeld, Ameer Dharamshi|arXiv (Cornell University)|Jan 18, 2023
Machine Learning and Algorithms被引用数 14
ひとこと要約

本論文はデータ薄化(data thinning)を紹介します。畳み込み閉包分布からの単一の観測を、元の観測値を合計する2つ以上の独立な部分に分解し、それぞれが同じ分布に従い、既知のパラメータスケーリングまで同じ分布を保つ方法です。これにより、標準的なサンプル分割を用いずに訓練/検証を実施できます。

ABSTRACT

We propose data thinning, an approach for splitting an observation into two or more independent parts that sum to the original observation, and that follow the same distribution as the original observation, up to a (known) scaling of a parameter. This very general proposal is applicable to any convolution-closed distribution, a class that includes the Gaussian, Poisson, negative binomial, gamma, and binomial distributions, among others. Data thinning has a number of applications to model selection, evaluation, and inference. For instance, cross-validation via data thinning provides an attractive alternative to the usual approach of cross-validation via sample splitting, especially in settings in which the latter is not applicable. In simulations and in an application to single-cell RNA-sequencing data, we show that data thinning can be used to validate the results of unsupervised learning approaches, such as k-means clustering and principal components analysis, for which traditional sample splitting is unattractive or unavailable.

研究の動機と目的

  • サンプル分割が適用できない場合の検証ツールの必要性を動機づける。
  • 同じ分布(スケーリングを許容した同じ分布としての独立な部分への単一の観測の分解というデータ薄化を定義する。
  • 薄化を多重フォールドへ拡張し、広いクラスの畳み込み閉包分布へ適用可能とする。
  • データ薄化とサンプル分割・データ分裂を比較し、クラスタリング、低秩近似、単一細胞RNA-シーケンシングの応用を示す。

提案手法

  • 畳み込み閉包分布と線形期待値性質を定義する。
  • Algorithm 1を提供し、F_lambdaからX^(1)とX^(2)を薄化して、X^(1) ~ F_{epsilon lambda}、X^(2) ~ F_{(1-epsilon) lambda}、独立で和がXになる。
  • 定理1で薄化が分布形と独立性を保持することを証明し、線形期待値性質の下で E[X^(1)] = epsilon E[X]、E[X^(2)] = (1-epsilon) E[X]。
  • Algorithm 2と定理2による多重薄化(M薄化)へ拡張し、X^(m) ~ F_{epsilon_m lambda}、fold間独立性を持ち、和がXに等しいことを示す。
  • 未知のノイズパラメータを含む実務的側面を議論し、表2と表3の一般的な分布について薄化の詳細を要約する。
  • 薄化をサンプル分割とデータ分裂と比較し、薄化が有利な設定を概説する。
Figure 1: Left: We generate 100,000 realizations of $X\sim\mathrm{N}(7,5)$ . For 50 values of $\tilde{\sigma}^{2}$ , we thin $X$ into $X^{(1)}$ and $X^{(2)}$ using $\tilde{\sigma}^{2}$ instead of $\sigma^{2}=5$ . Center: We generate 100,000 realizations of $X\sim\mathrm{NB}(7,0.7)$ . For 50 values o
Figure 1: Left: We generate 100,000 realizations of $X\sim\mathrm{N}(7,5)$ . For 50 values of $\tilde{\sigma}^{2}$ , we thin $X$ into $X^{(1)}$ and $X^{(2)}$ using $\tilde{\sigma}^{2}$ instead of $\sigma^{2}=5$ . Center: We generate 100,000 realizations of $X\sim\mathrm{NB}(7,0.7)$ . For 50 values o

実験結果

リサーチクエスチョン

  • RQ1畳み込み閉包分布からの単一の観測を、パラメータスケーリングまで再現する独立な部分に分解できるか。
  • RQ22部から複数フォールドへ拡張する際、独立性と周辺分布を保ちながら薄化を拡張できるか。
  • RQ3データ薄化はモデル検証と推論のためのサンプル分割の実用的な代替となり得るのはどのような状況か。
  • RQ4未知のノイズパラメータが薄化に与える影響は何か、またその不適切な仮定に対して薄化はどれだけ頑健か。
  • RQ5薄化はクラスタリング、低秩行列近似、および単一細胞RNA-seーケンシング分析の検証でどのように機能するか。

主な発見

  • データ薄化は、X^(1)とX^(2)という2つの独立成分を得、X = X^(1) + X^(2)、X^(1) ~ F_{epsilon lambda}、X^(2) ~ F_{(1-epsilon) lambda}。
  • 基底分布が線形期待値性質を満たす場合、E[X^(1)] = epsilon E[X]、E[X^(2)] = (1-epsilon) E[X]。
  • 多重薄化は任意のMに一般化され、X^(m) ~ F_{epsilon_m lambda}、fold間独立性を保ちながら和はXに等しい。
  • この枠組みは、ガウス分布やポアソン分布を超える幅広い畳み込み閉包分布群、ガンマ、負二項、二項、 multinomial 系を含む。
  • 薄化は伝統的なサンプル分割なしにクロスバリデーションのような評価に利用でき、シミュレーションと単一細胞RNA-seqデータの検証例で示される。
  • 論文はノイズパラメータの推定誤指定が薄化に及ぼす影響を分析し、情報配分のためのパラメータ選択(epsilon)の指針を提供する。
Figure 2: Comparison of data thinning and sample splitting, using the detection and power metrics defined in Section 4.3 . The top row shows the results of the large $n$ setting where the observations are independent and identically distributed (iid), and thus data thinning and sample splitting achi
Figure 2: Comparison of data thinning and sample splitting, using the detection and power metrics defined in Section 4.3 . The top row shows the results of the large $n$ setting where the observations are independent and identically distributed (iid), and thus data thinning and sample splitting achi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。