QUICK REVIEW

[論文レビュー] Learning Kernel Tests Without Data Splitting

Jonas M. Kübler, Wittawat Jitkrittum|arXiv (Cornell University)|Jun 1, 2020

Geophysical Methods and Applications被引用数 6

ひとこと要約

本稿では、データ分割を伴わずに全データセット上でカーネルハイパーパrameterの学習とカーネル検定を実行できる、選択的インファレンスに基づく手法を提案する。これにより、検定力が向上する。テストの閾値を閉形式で補正することにより、タイプI誤りの制御を維持しながら、すべての分割割合においてデータ分割手法を上回る実験的検定力を達成する。

ABSTRACT

Modern large-scale kernel-based tests such as maximum mean discrepancy (MMD) and kernelized Stein discrepancy (KSD) optimize kernel hyperparameters on a held-out sample via data splitting to obtain the most powerful test statistics. While data splitting results in a tractable null distribution, it suffers from a reduction in test power due to smaller test sample size. Inspired by the selective inference framework, we propose an approach that enables learning the hyperparameters and testing on the full sample without data splitting. Our approach can correctly calibrate the test in the presence of such dependency, and yield a test threshold in closed form. At the same significance level, our approach's test power is empirically larger than that of the data-splitting approach, regardless of its split proportion.

研究の動機と目的

データ分割によるハイパーパrameterチューニングに起因するカーネルベースの仮説検定における検定力の損失を是正すること。
データ分割を回避し、全データセット上でハイパーパrameterの学習と検定を実行できる手法を開発すること。
同じデータ上でハイパーパrameterの学習が行われることによる依存性にもかかわらず、テスト統計量の有効な閉形式閾値を提供すること。
すべての分割比において、データ分割手法に比べて実験的検定力を向上させること。

提案手法

ハイパーパrameter選択をモデル選択イベントとして扱い、カーネル検定に選択的インファレンスフレームワークを適応する。
選択されたカーネルハイパーパrameterに条件づけられた帰無分布を用いることで、データの再利用にもかかわらず有効なp値を保証する。
ハイパーパramータ選択を考慮したテスト閾値の閉形式表現を導出する。
最大平均差分（MMD）およびカーネル化されたスティーブンズ乖離（KSD）検定にこの手法を適用する。
ハイパーパラメータの学習とテスト統計量の計算の両方に全データセットを用いることで、サンプルサイズの削減を回避する。

実験結果

リサーチクエスチョン

RQ1同じデータ上でハイパーパラメータを学習し、テストを実行しても、タイプI誤りの制御を損なわずに、全データセット上でカーネルハイパーパラメータを学習してカーネル検定を実行することは可能か？
RQ2異なる分割割合において、提案手法はデータ分割手法に比べてどの程度の検定力の向上を達成するか？
RQ3同じデータからハイパーパラメータを学習する場合、テスト統計量の閉形式閾値を導出できるか？
RQ4ハイパーパラメータ選択とテスト統計量の間に依存関係が生じるにもかかわらず、この手法は有効な推論を維持できるか？

主な発見

提案手法は、分割割合にかかわらず、同じ有意水準においてデータ分割手法を上回る高い実験的検定力を達成する。
テスト統計量の閉形式閾値を提供するため、効率的かつ正確な推論が可能になる。
タイプI誤り率が良好に制御されており、選択的インファレンス補正の有効性が裏付けられる。
データ分割の必要がなくなるため、すべての利用可能なデータを検定に活用できるようになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。