Skip to main content
QUICK REVIEW

[論文レビュー] Consistency of the $k$-Nearest Neighbor Regressor under Complex Survey Designs

Caren Hasler|arXiv (Cornell University)|Mar 18, 2026
Statistical Methods and Inference被引用数 0
ひとこと要約

この論文は、データが複雑なサンプリング設計から出てくる場合における k-NN 回帰器の L2 一致性と収束レートを超母集団モデルおよび設計ベースの枠組みの下で確立し、次元の呪いを示す下向き境界を含む。

ABSTRACT

We study the consistency of the $k$-nearest neighbor regressor under complex survey designs. While consistency results for this algorithm are well established for independent and identically distributed data, corresponding results for complex survey data are lacking. We show that the $k$-nearest neighbor regressor is consistent under regularity conditions on the sampling design and the distribution of the data. We derive lower bounds for the rate of convergence and show that these bounds exhibit the curse of dimensionality, as in the independent and identically distributed setting. Empirical studies based on simulated and real data illustrate our theoretical findings.

研究の動機と目的

  • 複雑なサンプリング設計の下での k-NN 回帰の理論的基盤のギャップを動機づけ、対処する。
  • サンプリング設計とデータ分布の正則性条件の下で、設計ベースの k-NN 回帰器の L2 一致性を確立する。
  • 収束速度の下限を導出し、次元の呪いの存在を示す。
  • 理論結果を補完するために、シミュレーションデータと実データからの実証的証拠を提供する。

提案手法

  • 有限の固定母集団と複雑なサンプリング設計を含む超母集団モデルの下で問題を定義する。
  • k最近傍のサンプル単位と設計ベースの重み(I_i/π_i)を用いた設計加重 k-NN 推定量を導入する。
  • 理論証明を促進するために仮想的な母集団ベースの推定量を構築し、収束率を導出する。
  • 誤差を仮想推定量と設計整合成分に分解し、それぞれの項を境界づけることでサンプル推定量の L2 一致性を証明する。
  • レート境界を導出する:d=1 の場合、E[...^2] = O(1/k_n + k_n/n); d>=2 の場合、E[...^2] = O(1/k_n + (k_n/n)^{2/d}]。
  • n と N を増加させて、固定の抽出分率の下で、推定量が次元の呪いに苦しむ(次元が高くなるとレートが悪化する)ことを示す。

実験結果

リサーチクエスチョン

  • RQ1複雑なサンプリング設計と超母集団モデルの下で、どのような正則性条件の下で k-NN 回帰器が一貫性を持つのか。
  • RQ2設計ベースの k-NN 回帰量の収束速度はどの程度で、周囲の次元 d にどのように依存するのか。
  • RQ3通常の設計ベースの性質(例:包含確率、二次確率)は、この設定で k-NN の一貫性を保証するのか。
  • RQ4理論的レートと実務的設定における次元の呪いの存在について、実証的な支持はあるのか。

主な発見

  • 設計ベースの k-NN 回帰量は、正則性条件の集合(C1–C11)の下で回帰関数 m(x) に対して L2 一致性を持つ。
  • d=1 の場合、平均二乗誤差はレート O(1/k_n + k_n/n) で減少する。
  • d>=2 の場合、平均二乗誤差はレート O(1/k_n + (k_n/n)^{2/d}) で減少する。
  • k_n が増大しつつ k_n/n → 0 となる場合、設計ベース成分の境界を含む、上記レートで推定量は一貫性を達成する。
  • 系を最適化した場合、レートはノンパラメトリック回帰のベンチマークと整合し、次元の呪いが d の増加とともに現れることを示す。
  • 実証的なシミュレーションと実データ研究は、理論結果を裏付け、支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。