QUICK REVIEW

[논문 리뷰] Scalable Greedy Feature Selection via Weak Submodularity

Rajiv Khanna, Ethan R. Elenberg|arXiv (Cornell University)|2017. 03. 08.

Complexity and Algorithms in Graphs참고 문헌 19인용 수 28

한 줄 요약

이 논문은 두 가지 확장 가능한 그레디언트 특징 선택 알고리즘인 DistributedGreedy와 StochasticGreedy의 이론적 보장을 부분모듈러 함수를 초월해 약한 부분모듈러 함수로 확장한다. 여기서 유한한 부분모듈러 비율이 곱근사 보장을 충족시킨다는 것을 보여주며, 이는 희소 선형 회귀와 RIP 설계 행렬, 로지스틱 회귀와 같은 문제들에 대해 이 빠른 알고리즘들의 보다 넓은 적용 가능성을 보여준다. 실험 결과로는 빠른 속도-정확도 트레이드오프가 입증되었다.

ABSTRACT

Greedy algorithms are widely used for problems in machine learning such as feature selection and set function optimization. Unfortunately, for large datasets, the running time of even greedy algorithms can be quite high. This is because for each greedy step we need to refit a model or calculate a function using the previously selected choices and the new candidate. Two algorithms that are faster approximations to the greedy forward selection were introduced recently ([Mirzasoleiman et al. 2013, 2015]). They achieve better performance by exploiting distributed computation and stochastic evaluation respectively. Both algorithms have provable performance guarantees for submodular functions. In this paper we show that divergent from previously held opinion, submodularity is not required to obtain approximation guarantees for these two algorithms. Specifically, we show that a generalized concept of weak submodularity suffices to give multiplicative approximation guarantees. Our result extends the applicability of these algorithms to a larger class of functions. Furthermore, we show that a bounded submodularity ratio can be used to provide data dependent bounds that can sometimes be tighter also for submodular functions. We empirically validate our work by showing superior performance of fast greedy approximations versus several established baselines on artificial and real datasets.

연구 동기 및 목표

확장 가능한 그레디언트 알고리즘의 이론적 성능 보장을 부분모듈러 함수를 초월하여 확장하는 것.
부분모듈러 비율이 유한한 약한 부분모듈러성은 DistributedGreedy와 StochasticGreedy에 대한 곱근사 보장을 확보하는 데 충분한가를 보여주는 것.
부분모듈러 비율을 기반으로 한 데이터 의존적 경계를 제공하여, 부분모듈러 함수에 대한 표준 보장보다 더 날카로운 경계를 얻는 것.
합성 및 실세계 데이터셋에서의 실증적 검증을 통해, 선형 및 로지스틱 회귀 작업에서 이 빠른 그레디언트 근사 알고리즘이 향상된 성능을 보이는지 확인하는 것.

제안 방법

유한한 부분모듈러 비율 γ를 기반으로 한 약한 부분모듈러성의 일반화된 개념을 제안하며, 엄격한 부분모듈러성 요구 조건을 완화한다.
Nemhauser 등이 제시한 분석을 변형하여, 약한 부분모듈러성 하에서 그레디언트 알고리즘이 (1 - 1/e)γ 근사 보장을 달성함을 보여준다.
제한된 이소메트리성 조건(Restricted Isometry Property, RIP) 하에서 희소 선형 회귀에 이 프레임워크를 적용하여, R² 집합 함수가 유한한 γ를 가진 약한 부분모듈러성임을 보여준다.
제한된 강凸성 조건(Restricted Strong Convexity, RSC) 하에서 일반선형 모델의 로그우도와 같은 볼록 집합 함수로 결과를 확장한다.
분할 기반 분산 처리를 위한 DistributedGreedy와 스트로스틱 평가를 통한 StochasticGreedy 알고리즘을 활용하여 그레디언트 선택의 확장성을 확보한다.
부분모듈러 비율을 활용하여 데이터 의존적 성능 경계를 유도하며, 이는 부분모듈러 함수에 대한 표준 (1 - 1/e) 요소보다 더 날카로운 경계를 제공할 수 있다.

실험 결과

연구 질문

RQ1DistributedGreedy와 StochasticGreedy의 성능 보장은 부분모듈러 함수를 초월해 확장될 수 있는가?
RQ2유한한 부분모듈러 비율을 통해 정의되는 약한 부분모듈러성은 그레디언트 알고리즘에 대한 곱근사 보장을 보장하는 데 충분한가?
RQ3부분모듈러 비율을 기반으로 한 데이터 의존적 경계는 부분모듈러 함수에 대한 표준 (1 - 1/e) 보장보다 향상될 수 있는가?
RQ4이 빠른 그레디언트 알고리즘들은 희소 선형 회귀 및 로지스틱 회귀와 같은 비부분모듈러 함수에 대해 실질적으로 어떻게 성능을 발휘하는가?

주요 결과

이론적 분석 결과, 목적 함수가 부분모듈러 비율 γ를 가진 약한 부분모듈러일 경우, DistributedGreedy와 StochasticGreedy 모두 (1 - 1/e)γ 근사 보장을 달성함을 보여준다.
합성 데이터에 대한 실험 결과, 두 알고리즘이 Distributed Linear Regression 작업에서 Lasso 및 Lasso+보다 로그우도와 일반화 성능 측면에서 뛰어난 성능을 보였다.
140,250개의 특징을 가진 Electricity 데이터셋에서, Distributed Forward Selection은 테스트된 모든 방법 중에서 가장 높은 우도와 가장 우수한 일반화 점수를 기록했다.
Gisette 데이터셋에서의 희소 로지스틱 회귀 작업에서 StochasticGreedy는 로그우도 손실이 최소한으로 발생하는 동안 상당한 속도 향상을 달성했으며, δ 값이 0.5에 이르는 경우에도 유사한 성능 유지를 보였다.
부분모듈러 비율 γ는 특히 γ가 클 경우, 표준 (1 - 1/e) 요소보다 더 날카로운 데이터 의존적 경계를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.