Skip to main content
QUICK REVIEW

[論文レビュー] Outlier Robust Multivariate Polynomial Regression

Vipul Arora, Arnab Bhattacharyya|arXiv (Cornell University)|Jan 1, 2024
Advanced Statistical Methods and Models被引用数 1
ひとこと要約

本稿では、最大半数のデータが任意の外れ値である場合でも耐える強力な多変数多項式回帰のアルゴリズムを提示する。Chebyshev測度下では O(n d^n log d)、一様分布下では O(n d^{2n} log d) のサンプル数を用いて、ℓ∞-誤差が O(σ) に抑えられる。この手法は構造的多項式基底関数とノードベースの多項式分割を用い、外れ値に頑健なフィッティングを実現する。サンプル複雑度の最適性は情報理論的下界を用いて証明されている。

ABSTRACT

We study the problem of robust multivariate polynomial regression: let $p\colon\mathbb{R}^n o\mathbb{R}$ be an unknown $n$-variate polynomial of degree at most $d$ in each variable. We are given as input a set of random samples $(\mathbf{x}_i,y_i) \in [-1,1]^n imes \mathbb{R}$ that are noisy versions of $(\mathbf{x}_i,p(\mathbf{x}_i))$. More precisely, each $\mathbf{x}_i$ is sampled independently from some distribution $χ$ on $[-1,1]^n$, and for each $i$ independently, $y_i$ is arbitrary (i.e., an outlier) with probability at most $ρ< 1/2$, and otherwise satisfies $|y_i-p(\mathbf{x}_i)|\leqσ$. The goal is to output a polynomial $\hat{p}$, of degree at most $d$ in each variable, within an $\ell_\infty$-distance of at most $O(σ)$ from $p$. Kane, Karmalkar, and Price [FOCS'17] solved this problem for $n=1$. We generalize their results to the $n$-variate setting, showing an algorithm that achieves a sample complexity of $O_n(d^n\log d)$, where the hidden constant depends on $n$, if $χ$ is the $n$-dimensional Chebyshev distribution. The sample complexity is $O_n(d^{2n}\log d)$, if the samples are drawn from the uniform distribution instead. The approximation error is guaranteed to be at most $O(σ)$, and the run-time depends on $\log(1/σ)$. In the setting where each $\mathbf{x}_i$ and $y_i$ are known up to $N$ bits of precision, the run-time's dependence on $N$ is linear. We also show that our sample complexities are optimal in terms of $d^n$. Furthermore, we show that it is possible to have the run-time be independent of $1/σ$, at the cost of a higher sample complexity.

研究の動機と目的

  • 訓練サンプルの最大半数が敵対的外れ値であっても正確に保たれる多変数多項式回帰の効率的アルゴリズムの設計。
  • ノイズと外れ値で汚染されたサンプリング下で、個々の次数が最大 d である n 変数多項式を学習するためのサンプル複雑度の最小化。
  • 外れ値割合 ρ < 1/2 に依存しない定数近似因子を達成し、ℓ∞-誤差が O(σ) に抑えられることの保証。
  • 任意のアルゴリズムが定数確率で成功するためには、Ω((cd)^n log d) 個のサンプルが必要であることを示す、タイトなサンプル複雑度下界の証明。
  • Kane ら(FOCS'17)の1変数の頑健回帰結果を、最適なサンプルおよび実行時間効率を達成する多変数設定に拡張すること。

提案手法

  • Chebyshev型多項式から導かれる構造的多項式基底関数を用い、ℓ∞-ノルムの挙動が制御された局所的近似関数を構築する。
  • 領域 [−1,1]^n を m^n 個の点からなるグリッドにノードベースで分割し、m = ⌊d^{α/2}⌋ とする。各ノード bj に対して局所的多項式 pbj を定義する。
  • 補題 7.6 を用いて、各局所的多項式 pbj(x) の大きさが、最近接ノードまでの距離の O(1/d) 倍以内に抑えられることを保証し、局所的サポートを確保する。
  • ノードの部分集合 S に対して、fS(x) = ∑_{j∈S} pbj(x) としてグローバルなフィッティング関数を定義し、三角不等号とノードの近接性を用いてグローバル誤差を制御する。
  • 外れ値が小さな孤立領域に集中する可能性が低いことを利用し、確率的集中を用いた誤差バインディングを実現する、外れ値に頑健なフィッティング戦略を実装する。
  • 1つのノードの多項式が異なる2つの候補多項式 fS と fS′ を用いた統計的区別不能性の議論により、サンプル複雑度の下界を証明する。

実験結果

リサーチクエスチョン

  • RQ1個々の次数 d の多項式に対して、n に関して指数的でない(すなわち、n の多項式的)サンプル複雑度を達成できる多変数多項式回帰は可能か?
  • RQ2多変数設定において、Chebyshev分布および一様分布下での頑健回帰の最適サンプル複雑度は何か?
  • RQ3敵対的外れ値が ρ < 1/2 の割合で存在する状況でも、ℓ∞-ノルムで O(σ) の誤差を達成できるか?
  • RQ4提案されたサンプル複雑度はタイトか、それとも漸近的に改善可能か?
  • RQ5サンプル複雑度を増加させることなく、実行時間の 1/σ に依存しないようにできるか?

主な発見

  • n 次元 Chebyshev 測度下では、サンプル複雑度 O(n d^n log d) を用いて、多変数多項式回帰の ℓ∞-誤差が O(σ) に抑えられる。
  • 一様分布下ではサンプル複雑度が O(n d^{2n} log d) に増加するが、対数要因を除いて最適性が保たれる。
  • 実行時間は入力データのビット精度 N に対して線形に依存し、1/σ に対して対数的に依存する。1/σ に依存しない実行時間は、サンプル複雑度を増加させることで達成可能である。
  • サンプル複雑度は、任意のアルゴリズムが定数確率で成功するためには (cd)^n log d 個のサンプルが必要であるため、対数要因を除いて最適であることが証明されている。
  • 下界により、(cd)^n log d 個未満のサンプルでは、どのアルゴリズムも確率 2/3 を超えて成功できないことが示され、d^n に依存するサンプル複雑度のタイトさが裏付けられる。
  • 本手法により、外れ値がすべてのサンプルを観測した後で敵対的に選ばれたとしても、与えられたサンプリングモデル下で ℓ∞-誤差が O(σ) に抑えられることを確立している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。