QUICK REVIEW

[論文レビュー] Efficient Algorithms for Outlier-Robust Regression

Adam R. Klivans, Pravesh K. Kothari|arXiv (Cornell University)|Mar 8, 2018

Machine Learning and Algorithms参考文献 18被引用数 31

ひとこと要約

本稿では、特徴量およびラベルの両方において敵対的ノイズがかかる状況下で、外れ値に頑健な線形回帰および多項式回帰に対する最初の多項式時間アルゴリズムを提示する。この手法は、和の平方（SoS）法を用いて、ガウス分布、対数凹型分布、超立方体分布など、証明可能にハイパーコントラクト性を持つ入力分布において、最適な回帰誤差に近い誤差を達成する。敵対的ノイズが入力分布の定数割合以下である場合に有効である。

ABSTRACT

We give the first polynomial-time algorithm for performing linear or polynomial regression resilient to adversarial corruptions in both examples and labels. Given a sufficiently large (polynomial-size) training set drawn i.i.d. from distribution D and subsequently corrupted on some fraction of points, our algorithm outputs a linear function whose squared error is close to the squared error of the best-fitting linear function with respect to D, assuming that the marginal distribution of D over the input space is \emph{certifiably hypercontractive}. This natural property is satisfied by many well-studied distributions such as Gaussian, strongly log-concave distributions and, uniform distribution on the hypercube among others. We also give a simple statistical lower bound showing that some distributional assumption is necessary to succeed in this setting. These results are the first of their kind and were not known to be even information-theoretically possible prior to our work. Our approach is based on the sum-of-squares (SoS) method and is inspired by the recent applications of the method for parameter recovery problems in unsupervised learning. Our algorithm can be seen as a natural convex relaxation of the following conceptually simple non-convex optimization problem: find a linear function and a large subset of the input corrupted sample such that the least squares loss of the function over the subset is minimized over all possible large subsets.

研究の動機と目的

入力特徴量およびラベルの両方において敵対的ノイズがかかる状況下でも、線形回帰および多項式回帰に対して最初の効率的アルゴリズムを開発すること。
外れ値に頑健な回帰が情報理論的に可能となる条件を確立し、分布に関する仮定が必要であることを示すこと。
証明可能にハイパーコントラクト性を持つ分布の概念を形式化し、和の平方法による効率的最適化を可能にすること。
真のデータ分布下での最良の回帰関数と同等の誤差を達成する多項式時間アルゴリズムを提供すること。この誤差は、定数割合のデータが破損している場合でも成立する。
分布に関する仮定がなければ、非自明な頑健な回帰保証は不可能であることを示し、統計的下界を確立すること。

提案手法

入力特徴量およびラベルの両方が敵対的に変更された点を含む、η-破損 i.i.d. サンプルからの線形関数の学習問題として問題を形式化する。
ガウス分布、対数凹型分布、有界領域上の積分布を含む、証明可能に (C,4)-ハイパーコントラクト性を持つ分布の概念を導入する。
非凸問題の凸緩和を提案：与えられた部分集合上で最小二乗誤差を最小化する線形関数と、大きなデータ部分集合を同時に見つける問題。
和の平方（SoS）法を用いて、ハイパーコントラクト性の証明と緩和された最適化問題の解法を可能にする多項式時間アルゴリズムを設計する。
4次SoS証明系を構築し、ハイパーコントラクト性条件を検証することで、この構造的仮定の下での効率的最適化を可能にする。
SoSに基づく推定と頑健な統計的学習技術を組み合わせ、真の分布下での最適誤差に近い誤差境界を保証する。

実験結果

リサーチクエスチョン

RQ1特徴量およびラベルの両方が定数割合のデータに対して敵対的ノイズがかかる状況下でも、線形回帰のための効率的アルゴリズムを設計できるか？
RQ2外れ値に頑健な回帰が情報理論的に可能となるために必要な分布に関する仮定は何か？
RQ3和の平方法を用いて、証明可能にハイパーコントラクト性を持つ条件下での頑健な回帰の多項式時間アルゴリズムを設計できるか？
RQ4有界またはサブガウス型ノイズの仮定なしに、真のデータ分布下での最適誤差に近い誤差を達成することは可能か？
RQ5入力の周辺分布が任意である場合、頑健な回帰の根本的統計的限界は何か？

主な発見

提案されたアルゴリズムは多項式時間で実行され、入力周辺分布が証明可能に (C,4)-ハイパーコントラクト性を持つ場合、真の分布下での最適誤差に近い誤差境界を達成する。
破損率ηがC²の逆数に定数倍する程度であれば、アルゴリズムは成功する。ここでCは入力分布のハイパーコントラクト性定数である。
本手法は、ガウス分布、強い対数凹型分布、および有界な周辺分布を持つ超立方体上での積分布を含む広範な分布クラスに適用可能である。
本稿では、分布に関する仮定がなければ、非自明な頑健な回帰保証は不可能であることを示す統計的下界を確立している。これは、無限大のラベルノイズがある場合でも成立する。
和の平方フレームワークにより、非凸な頑健な回帰問題の凸緩和が可能となり、ハイパーコントラクト性の仮定の下で効率的最適化が可能になる。
アルゴリズムは、敵対的ノイズがかかる状況下でも、最適誤差に対する小さな加法的項の誤差で抑えられた仮説を出力する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。