Skip to main content
QUICK REVIEW

[論文レビュー] Nearly Optimal Bounds for Sample-Based Testing and Learning of $k$-Monotone Functions

Hadley Black|arXiv (Cornell University)|Oct 18, 2023
Machine Learning and Algorithms被引用数 1
ひとこと要約

本稿は、超立方体および連続的積空間上での $k$-単調関数のテストおよび学習における、ほぼタイトな標本複雑度の境界を確立する。関数 $f: \{0,1\}^d \to [r]$ に対する $k$-単調性のテストおよび学習について、下界 $\exp(\Omega(\min\{\frac{rk}{\varepsilon}\sqrt{d}, d\}))$ を証明し、指数部の対数的要因を除いて既知の上界と一致する。さらに、標本効率を向上させた積分布下での $\mathbb{R}^d$ への拡張も行う。

ABSTRACT

We study monotonicity testing of functions $f \colon \{0,1\}^d o \{0,1\}$ using sample-based algorithms, which are only allowed to observe the value of $f$ on points drawn independently from the uniform distribution. A classic result by Bshouty-Tamon (J. ACM 1996) proved that monotone functions can be learned with $\exp(\widetilde{O}(\min\{\frac{1}{\varepsilon}\sqrt{d},d\}))$ samples and it is not hard to show that this bound extends to testing. Prior to our work the only lower bound for this problem was $Ω(\sqrt{\exp(d)/\varepsilon})$ in the small $\varepsilon$ parameter regime, when $\varepsilon = O(d^{-3/2})$, due to Goldreich-Goldwasser-Lehman-Ron-Samorodnitsky (Combinatorica 2000). Thus, the sample complexity of monotonicity testing was wide open for $\varepsilon \gg d^{-3/2}$. We resolve this question, obtaining a nearly tight lower bound of $\exp(Ω(\min\{\frac{1}{\varepsilon}\sqrt{d},d\}))$ for all $\varepsilon$ at most a sufficiently small constant. In fact, we prove a much more general result, showing that the sample complexity of $k$-monotonicity testing and learning for functions $f \colon \{0,1\}^d o [r]$ is $\exp(Ω(\min\{\frac{rk}{\varepsilon}\sqrt{d},d\}))$. For testing with one-sided error we show that the sample complexity is $\exp(Θ(d))$. Beyond the hypercube, we prove nearly tight bounds (up to polylog factors of $d,k,r,1/\varepsilon$ in the exponent) of $\exp(\widetildeΘ(\min\{\frac{rk}{\varepsilon}\sqrt{d},d\}))$ on the sample complexity of testing and learning measurable $k$-monotone functions $f \colon \mathbb{R}^d o [r]$ under product distributions. Our upper bound improves upon the previous bound of $\exp(\widetilde{O}(\min\{\frac{k}{\varepsilon^2}\sqrt{d},d\}))$ by Harms-Yoshida (ICALP 2022) for Boolean functions ($r=2$).

研究の動機と目的

  • 標本ベースのモデルにおける単調性テストおよび学習の標本複雑度境界のギャップを埋めること、特に $\varepsilon \gg d^{-3/2}$ の場合に焦点を当てる。
  • 関数 $f: \{0,1\}^d \to [r]$ に対する $k$-単調性のテストおよび学習の、ほぼ最適な下界を確立すること。
  • $\mathbb{R}^d$ 上の可測な $k$-単調関数の学習およびテストにおける、ほぼタイトな標本複雑度を提供すること。
  • 積分布下での $k$-単調関数の学習アルゴリズムの標本複雑度を向上させ、新しい下界と多対数的要因の差異を除いて一致させること。

提案手法

  • 一様標本化下での識別不能性を示すために、二つの分布 $D_{\text{yes}}$ および $D_{\text{no}}$ を構築する。
  • 標本のペアに関する和集合の不等式を用いた確率的議論により、片側エラーのテスト器が非単調性を検出するには $\exp(\Omega(d))$ 個の標本が必要であることを示す。
  • 切符収集の議論を用いて、片側エラーによる単調性テストの標本複雑度下界を $\exp(\Omega(d))$ として確立する。
  • $\mathbb{R}^d$ 上の学習問題をダウンサンプリングによりハイパーグリッドに還元し、離散的手法の適用を可能にする。
  • VC次元が有界な仮説クラスを用いた経験的リスク最小化に基づく学習アルゴリズムを採用し、高い確率で一般化を保証する。
  • テスト・バイ・ラーニング枠組みを用いる:$s(\varepsilon/4)$ 個の標本を要する学習アルゴリズムを、$s(\varepsilon/4) + O(1/\varepsilon^2)$ 個の標本を要するテスト器に変換する。

実験結果

リサーチクエスチョン

  • RQ1関数 $f: \{0,1\}^d \to [r]$ の $k$-単調性のテストにおける、最適な標本複雑度は何か?
  • RQ2既存の上界と一致する、ほぼタイトな下界を $k$-単調性のテストおよび学習に対して確立できるか?
  • RQ3連続的積空間(例:$\mathbb{R}^d$)上での $k$-単調関数の学習およびテストにおける標本複雑度はどのようにスケーリングされるか?
  • RQ4$\mathbb{R}^d$ 上での $k$-単調関数の学習の標本複雑度を、新しい下界と一致させるように向上させられるか?

主な発見

  • 本稿は、関数 $f: \{0,1\}^d \to [r]$ に対する $k$-単調性のテストおよび学習について、ほぼタイトな下界 $\exp(\Omega(\min\{\frac{rk}{\varepsilon}\sqrt{d}, d\}))$ を確立した。
  • 片側エラーによる単調性テスト($k=1$, $r=2$)において、標本複雑度は $\exp(\Omega(d))$ であり、指数部の対数的要因を除いてタイトである。
  • $\mathbb{R}^d$ 上の積分布下での $k$-単調関数の学習上界は $\exp(\widetilde{O}(\min\{\frac{rk}{\varepsilon}\sqrt{d}, d\}))$ であり、下界と多対数的要因の差異を除いて一致する。
  • $\mathbb{R}^d$ における改善された学習アルゴリズムは、新しい標本ベースのテスト下界と一致し、連続的設定における長年のギャップを解消した。
  • 従来の境界が不明であった $\varepsilon \gg d^{-3/2}$ の領域において、単調性テストの標本複雑度のギャップが埋められた。
  • 識別不能な分布を構築することで、標本ベースのテストにおける下界を証明する一般枠組みを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。