QUICK REVIEW

[논문 리뷰] Data Sketching for Faster Training of Machine Learning Models.

Baharan Mirzasoleiman, Jeff Bilmes|arXiv (Cornell University)|2019. 06. 05.

Stochastic Gradient Optimization Techniques참고 문헌 11인용 수 2

한 줄 요약

CRAIG는 증분 경사(IG) 최적화를 가속화하기 위해 훈련 데이터의 가중치가 부여된 부분집합(코어셋)을 선택하는 데이터 스케치 방법을 제안한다. 전체 경사의 근사값을 최대화하기 위해 하위모듈러 함수를 사용함으로써 CRAIG는 전체 배치 기반 IG와 동일한 속도로 근사 최적 해에 수렴함을 보장하며, 로지스틱 회귀에서는 최대 6배, 딥 네URAL 네트워크에서는 최대 3배의 속도 향상을 이룩하면서 모델 성능을 손상시키지 않는다.

ABSTRACT

Incremental gradient (IG) methods, such as stochastic gradient descent and its variants are commonly used for large scale optimization in machine learning. Despite the sustained effort to make IG methods more data-efficient, it remains an open question how to select a training data subset that can theoretically and practically perform on par with the full dataset. Here we develop CRAIG, a method to select a weighted subset (or coreset) of training data that closely estimates the full gradient by maximizing a submodular function. We prove that applying IG to this subset is guaranteed to converge to the (near)optimal solution with the same convergence rate as that of IG for convex optimization. As a result, CRAIG achieves a speedup that is inversely proportional to the size of the subset. To our knowledge, this is the first rigorous method for data-efficient training of general machine learning models. Our extensive set of experiments show that CRAIG, while achieving practically the same solution, speeds up various IG methods by up to 6x for logistic regression and 3x for training deep neural networks.

연구 동기 및 목표

전체 배치 기반 증분 경사 방법의 수렴 성질을 유지하는 데이터 부분집합을 선택하는 문제를 해결하기 위해.
일반적인 기계 학습 모델에 적용 가능한 데이터 효율적인 훈련을 위한 이론적으로 탄탄한 방법을 개발하기 위해.
코어셋 기반 훈련이 볼록 최적화 문제에서 전체 데이터셋 기반 훈련과 동일한 수렴 속도를 달성하도록 보장하기 위해.
다양한 모델, 예를 들어 로지스틱 회귀와 딥 네URAL 네트워크에서 모델 정확도를 유지하면서 훈련 시간을 크게 단축시키기 위해.

제안 방법

CRAIG는 전체 경사의 근사를 최대화하는 하위모듈러 함수를 최대화하는 방식으로 데이터 부분집합 선택 문제를 수식화한다.
이 방법은 경사 근사 품질을 극대화하는 데이터 포인트를 선택함으로써 코어셋을 구성하며, 이는 이론적 수렴 보장을 보장한다.
이 방법은 경사 추정에서의 경계 기여도를 기반으로 한 탐욕 알고리즘을 사용하여 하위모듈러성의 이점을 활용해 근사 최적의 선택을 수행한다.
선택된 코어셋은 증분 경사 방법에서 경사 계산에 사용되며, 전체 배치 계산을 대체한다.
이론적 분석을 통해 볼록 최적화 문제에서 CRAIG 코어셋을 사용한 IG가 전체 배치 기반 IG와 동일한 수렴 속도를 확보함을 증명한다.
이 방법은 로지스틱 회귀 및 딥 네URAL 네트워크를 포함한 다양한 모델에 적용 가능하며, 수정이 최소한이다.

실험 결과

연구 질문

RQ1증분 경사 방법이 전체 배치 기반 방법과 동일한 속도로 수렴하도록 할 수 있는 데이터 부분집합을 선택할 수 있는가?
RQ2전체 경사를 효과적으로 근사하는 코어셋을 선택하기 위한 이론적으로 탄탄한 방법이 존재하는가?
RQ3하위모듈러 최적화를 통한 데이터 스케칭이 모델 정확도를 손상시키지 않으면서도 상당한 훈련 속도 향상을 이룰 수 있는가?
RQ4CRAIG의 성능는 다양한 기계 학습 모델에서 전체 배치 훈련과 비교해 어떻게 나타나는가?

주요 결과

로지스틱 회귀의 경우 CRAIG는 전체 데이터셋 훈련과 동일한 모델 성능을 유지하면서 훈련 시간을 최대 6배 가속화한다.
딥 네URAL 네트워크의 경우 CRAIG는 정확도에 큰 손실 없이 전체 배치 훈련 대비 최대 3배의 속도 향상을 달성한다.
이론적 분석을 통해 CRAIG 코어셋을 사용한 증분 경사 방법이 볼록 최적화 문제에서 전체 배치 경사 하강법과 동일한 수렴 속도를 확보함을 확인했다.
이 방법은 일반적인 기계 학습 모델에 대해 데이터 효율적 훈련을 위한 엄밀한 이론적 보장을 제공하는 최초의 방법이다.
실험 결과는 CRAIG의 코어셋 선택이 전체 데이터셋의 경사와 매우 유사한 근사를 제공함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.