QUICK REVIEW

[논문 리뷰] Efficient Algorithms for Outlier-Robust Regression

Adam R. Klivans, Pravesh K. Kothari|arXiv (Cornell University)|2018. 03. 08.

Machine Learning and Algorithms참고 문헌 18인용 수 31

한 줄 요약

이 논문은 입력 특성과 레이블 양측에 악성 오염이 존재하는 상황에서, 선형 및 다항 회귀에 대해 최초로 다항 시간 알고리즘을 제안한다. 이는 입력 분포가 증명 가능하게 초수렴성( certifiably hypercontractive )인 경우, 예를 들어 정규분포, 로그-볼록분포, 초입방체 분포 등에서 최적의 회귀 오차에 가까운 오차를 달성하기 위해 합의 제곱( SoS ) 방법을 활용한다. 오염 비율이 일정 비율 이하일 경우에 유효하다.

ABSTRACT

We give the first polynomial-time algorithm for performing linear or polynomial regression resilient to adversarial corruptions in both examples and labels. Given a sufficiently large (polynomial-size) training set drawn i.i.d. from distribution D and subsequently corrupted on some fraction of points, our algorithm outputs a linear function whose squared error is close to the squared error of the best-fitting linear function with respect to D, assuming that the marginal distribution of D over the input space is \emph{certifiably hypercontractive}. This natural property is satisfied by many well-studied distributions such as Gaussian, strongly log-concave distributions and, uniform distribution on the hypercube among others. We also give a simple statistical lower bound showing that some distributional assumption is necessary to succeed in this setting. These results are the first of their kind and were not known to be even information-theoretically possible prior to our work. Our approach is based on the sum-of-squares (SoS) method and is inspired by the recent applications of the method for parameter recovery problems in unsupervised learning. Our algorithm can be seen as a natural convex relaxation of the following conceptually simple non-convex optimization problem: find a linear function and a large subset of the input corrupted sample such that the least squares loss of the function over the subset is minimized over all possible large subsets.

연구 동기 및 목표

입력 특성과 레이블 양측에 악성 오염이 존재하는 상황에서도 효율적인 선형 및 다항 회귀 알고리즘을 개발하는 것.
외곽치에 강건한 회귀가 정보론적으로 가능한 조건을 규명하여, 분포 가정이 필수적임을 보여주는 것.
증명 가능하게 초수렴성 분포의 개념을 정의하고, 이를 통해 합의 제곱 방법을 통한 효율적 최적화를 가능하게 하는 것.
진짜 데이터 분포 하에서 최선의 가능한 회귀 함수와 경쟁 가능한 오차를 달성하는 다항 시간 알고리즘을 제공하는 것.
분포 가정이 없을 경우, 비어 있지 않은 강건한 회귀 보장이 불가능함을 보여주는 통계적 하한을 설정하는 것.

제안 방법

입력 특성과 레이블 양측에서 최대 η 비율의 점이 악성으로 수정된 i.i.d. 표본으로부터 선형 함수를 학습하는 문제를 수식화한다.
Gaussians, log-concave, 및 유한 도메인의 곱 분포를 포함하는, (C,4)-증명 가능 초수렴성 분포의 개념을 도입한다.
비볼록 문제의 볼록 근사화를 제안: 주어진 부분집합에서 최소 제곱 손실을 최소화하는 선형 함수와 큰 부분집합을 찾는 것.
합의 제곱( SoS ) 방법을 사용하여 초수렴성 조건을 증명하고, 근사화된 최적화 문제를 해결하는 다항 시간 알고리즘을 설계한다.
초수렴성 조건을 검증하기 위한 4차 SoS 증명 체계를 구축하여, 이러한 구조적 가정 하에서 효율적 최적화를 가능하게 한다.
SoS 기반 추정과 강건한 통계 학습 기법을 융합하여, 진짜 분포 하에서 최적 오차에 가까운 오차 한계를 확보한다.

실험 결과

연구 질문

RQ1입력 특성과 레이블 양측이 일정 비율의 데이터에서 악성 오염을 받는 상황에서도 정확한 선형 회귀 알고리즘을 설계할 수 있는가?
RQ2외곽치에 강건한 회귀가 정보론적으로 가능하기 위해 필요한 분포 가정은 무엇인가?
RQ3합의 제곱 방법을 사용하여 증명 가능 초수렴성 하에서 강건한 회귀에 대한 다항 시간 알고리즘을 설계할 수 있는가?
RQ4제한된 또는 서브-정규 오차를 가정하지 않더라도, 진짜 데이터 분포 하에서 최적 오차에 가까운 오차를 달성할 수 있는가?
RQ5입력의 주변 분포가 임의일 경우, 강건한 회귀의 기본 통계적 한계는 무엇인가?

주요 결과

제안된 알고리즘은 다항 시간 내에 실행되며, 입력 주변 분포가 증명 가능하게 (C,4)-초수렴성일 경우, 진짜 분포 하에서 최적 오차에 가까운 오차 한계를 확보한다.
오염 비율 η가 C²의 역수인 상수 이하일 경우 알고리즘이 성공한다. 여기서 C는 입력 분포의 초수렴성 상수이다.
이 방법은 정규분포, 강력한 로그-볼록분포, 유한한 모수를 가진 초입방체 상의 곱 분포를 포함한 광범위한 분포 클래스에 적용 가능하다.
논문은 통계적 하한을 설정하여, 분포 가정이 없을 경우 비어 있지 않은 강건한 회귀 보장이 조차 불가능함을 보여준다. 이는 비한정된 레이블 노이즈가 존재하더라도 마찬가지이다.
합의 제곱 프레임워크는 비볼록 강건 회귀 문제를 볼록 근사화할 수 있게 하여, 초수렴성 조건 하에서 효율적 최적화를 가능하게 한다.
알고리즘은 악성 오염 조건 하에서도 최적 오차에 대한 작은 덧셈 항으로 제한된 오차를 갖는 가설을 출력한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.