QUICK REVIEW

[논문 리뷰] Robust machine learning by median-of-means : theory and practice

Guillaume Lecué, Matthieu Lerasle|arXiv (Cornell University)|2017. 11. 28.

Advanced Statistical Methods and Models참고 문헌 46인용 수 102

한 줄 요약

이 논문은 최소한의 가정 하에 조작된 데이터가 존재하는 상황에서도 최적의 수렴 속도를 달성하는 강건한 기계학습을 위한 중앙값의 평균(MOM) 추정기법을 제안한다. 이 방법은 표준 경험 위험 최소화를 MOM 기반 추정으로 대체하여 이론적 보장, 계산 효율성, 그리고 비점근적 붕괴 수치를 제공함으로써 강건성을 외부 요인과 수렴 속도의 관점에서 정량화한다.

ABSTRACT

We introduce new estimators for robust machine learning based on median-of-means (MOM) estimators of the mean of real valued random variables. These estimators achieve optimal rates of convergence under minimal assumptions on the dataset. The dataset may also have been corrupted by outliers on which no assumption is granted. We also analyze these new estimators with standard tools from robust statistics. In particular, we revisit the concept of breakdown point. We modify the original definition by studying the number of outliers that a dataset can contain without deteriorating the estimation properties of a given estimator. This new notion of breakdown number, that takes into account the statistical performances of the estimators, is non-asymptotic in nature and adapted for machine learning purposes. We proved that the breakdown number of our estimator is of the order of (number of observations)*(rate of convergence). For instance, the breakdown number of our estimators for the problem of estimation of a d-dimensional vector with a noise variance sigma^2 is sigma^2d and it becomes sigma^2 s log(d/s) when this vector has only s non-zero component. Beyond this breakdown point, we proved that the rate of convergence achieved by our estimator is (number of outliers) divided by (number of observation). Besides these theoretical guarantees, the major improvement brought by these new estimators is that they are easily computable in practice. In fact, basically any algorithm used to approximate the standard Empirical Risk Minimizer (or its regularized versions) has a robust version approximating our estimators. As a proof of concept, we study many algorithms for the classical LASSO estimator. A byproduct of the MOM algorithms is a measure of depth of data that can be used to detect outliers.

연구 동기 및 목표

중요한 가정이 최소한일지라도, 첨도가 높거나 조작된 데이터가 존재하는 상황에서도 최적의 수렴 속도를 유지하는 강건한 기계학습 추정기법을 개발하는 것.
통계적 성능과 외곽치 내성 간의 관계를 명시적으로 연결하는 비점근적 붕괴 수치를 도입하여 기계학습에서의 강건성의 정의를 재고하는 것.
특히 대규모 및 분산 데이터 세트에 적합한 표준 경험 위험 최소화자에 대한 계산 효율적인 대안을 제공하는 것.
강건한 추정과 이상치 탐지의 두 가지 문제를 동시에 해결할 수 있도록 추정 과정의 부산물로 이상치 탐지 기능을 제공하는 것.

제안 방법

표준 경험 위험 최소화(ERM)의 대안으로 중앙값의 평균(MOM) 추정기법을 제안하여 평균 기반 추정을 국소 평균의 중앙값으로 대체한다.
데이터 세트를 K개의 무작위 블록으로 나누고, 각 블록 내에서 국소 경험 평균을 계산한 후, 이 블록 평균들의 중앙값을 취해 최종 추정기법을 구성한다.
데이터에 따라 적응적으로 K를 선택하는 블록 선택 규칙을 사용하여 강건성과 최적의 수렴 속도를 확보한다.
클래식한 알고리즘인 LASSO에 MOM 프레임워크를 적용하여, 원래 대비 더 빠르고 메모리 효율성이 높은 강건한 MOM-LASSO 버전을 도입한다.
붕괴 점 개념을 재고하기 위해 '붕괴 수치'—수렴 속도가 악화되기 전까지 견딜 수 있는 최대 이상치 수—를 도입한다.
약한 모멘트 가정 하에 비점근적 위험 경계를 유도하기 위해 농도 부등식과 경험 과정 이론을 활용한다.

실험 결과

연구 질문

RQ1데이터가 이상치에 의해 손상되거나 첨도가 높은 상황에서도 MOM 추정기법이 최소한의 가정 하에 최적의 수렴 속도를 달성할 수 있는가?
RQ2전통적인 점근적 붕괴 점에 의존하지 않고, 성능 중심의 비점근적 방식으로 강건성을 정량화할 수 있는가?
RQ3강건한 추정기법이 대규모 데이터 세트, 특히 분산 환경에서 계산적으로 효율적이고 확장 가능한가?
RQ4MOM 프레임워크는 LASSO와 같은 표준 기계학습 알고리즘에 얼마나 널리 적용될 수 있으며, 실제로 어떤 향상 효과를 낳는가?
RQ5MOM 추정 과정 자체가 이상치 탐지에 사용할 수 있는 데이터 깊이 측정 기준을 제공할 수 있는가?

주요 결과

MOM 추정기의 붕괴 수치는 N × rN의 주기이며, 여기서 rN은 수렴 속도이므로, d차원 추정에서 최대 σ²d개의 이상치를 견딜 수 있다.
비제로 성분이 s개인 희소 벡터의 경우 붕괴 수치는 σ²s log(ed/s)이며, 이는 희소성 하에서 향상된 강건성을 반영한다.
이상치 수가 붕괴 수치 이하일 경우, 추정기법은 최적의 수렴 속도 rN ∼ K/N를 달성한다.
이상치 수가 붕괴 수치를 초과할 경우, 추정 오차는 이상치 비율에 따라 선형적으로 증가한다.
MOM 기반 LASSO는 원래 대비 더 빠르고 메모리 사용량이 적으며, 이상치 탐지에 사용할 수 있는 데이터 깊이 측정 기준을 자연스럽게 제공한다.
이론적 보장은 약한 가정 하에서도 성립한다: 정보가 많은 데이터와 진짜 분포 간의 L2 모멘트 등가성만 요구되며, 서브가우시안성이나 독립성의 가정은 필요하지 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.