QUICK REVIEW

[논문 리뷰] Coresets for Data-efficient Training of Machine Learning Models

Baharan Mirzasoleiman, Jeff Bilmes|arXiv (Cornell University)|2019. 06. 05.

Stochastic Gradient Optimization Techniques인용 수 37

한 줄 요약

CRAIG는 전체 그래디언트를 근사하는 가중치가 부여된 데이터 부분집합(코어셋)을 선택하여, 증분 그래디언트 방법이 전체 데이터를 사용할 때와 같은 속도로 수렴하도록 하며, 실제로 상당한 속도 향상을 얻습니다.

ABSTRACT

Incremental gradient (IG) methods, such as stochastic gradient descent and its variants are commonly used for large scale optimization in machine learning. Despite the sustained effort to make IG methods more data-efficient, it remains an open question how to select a training data subset that can theoretically and practically perform on par with the full dataset. Here we develop CRAIG, a method to select a weighted subset (or coreset) of training data that closely estimates the full gradient by maximizing a submodular function. We prove that applying IG to this subset is guaranteed to converge to the (near)optimal solution with the same convergence rate as that of IG for convex optimization. As a result, CRAIG achieves a speedup that is inversely proportional to the size of the subset. To our knowledge, this is the first rigorous method for data-efficient training of general machine learning models. Our extensive set of experiments show that CRAIG, while achieving practically the same solution, speeds up various IG methods by up to 6x for logistic regression and 3x for training deep neural networks.

연구 동기 및 목표

대규모 ML에서 계산 및 에너지 비용을 줄이기 위한 데이터 효율적 학습 동기 부여.
작고 가중된 코어셋으로 전체 그래디언트를 근사하는 원리 있는 부분집합 선택 방법 개발
부분집합에서의 IG가 전체 데이터에서의 IG와 수렴 보장을 제공
볼록 및 비볼록 모델에 모두 적용 가능한 실용적 속도향상 및 적용성 시연

제안 방법

부분집합 S에 대한 그래디언트 추정 오차를 전체 데이터 V에 대해 상한을 주는 목적 함수 L(S) 정의
그래디언트 근사 목적을 단조적 부분모듈러 시설 위치 함수 F로 변환하고 그리디 알고리즘으로 해결
그래디언트 공간에서 각 부분집합 원소에 가장 가까운 성분의 개수로 가중치 γ_j 계산
ε에 연결된 오차 항으로 전체 데이터와 같은 에포크 수에서 S에 적용된 어떤 IG 방법의 수렴성 증명
전체 역전파를 필요로 하지 않는 그래디언트- bound 근사치를 포함하여 딥 네트워크에 CRAIG를 적용하기 위한 실용적 가이드 제공

실험 결과

연구 질문

RQ1가중치를 갖는 작은 데이터 부분집합이 전체 그래디언트를 충분히 정확히 근사하여 IG 수렴 동작을 유지할 수 있는가?
RQ2CRAIG가 선택한 부분집합을 사용하는 것이 볼록 문제의 수렴 속도 및 최종 해에 어떤 영향을 미치는가?
RQ3CRAIG 부분집합이 SGD, SAGA, SVRG 및 심층 네트워크 학습에서 정확도를 희생하지 않으면서 상당한 속도향상을 제공하는가?
RQ4그래디언트 경계가 계산되기 어려운 깊은 네트워크로 CRAIG를 확장하려면 어떠한 방법이 필요한가?

주요 결과

CRAIG는 부분집합에서 IG를 전체 데이터의 IG와 동일한 해로 수렴하도록 하며, 속도는 |V|/|S|에 비례한다.
강결합 문제의 경우 CRAIG 부분집합에서의 IG는 오차항 O(epsilon)으로 수렴하고 전체 데이터 속도와 상수로까지 일치한다.
실험에서 볼록 문제에 대해 최대 6배, 비볼록 심층 네트워크에서 최대 3배의 속도 향상을 보였고 손실 및 정확도는 유사하게 유지되었다.
CRAIG 부분집합(일부 경우 데이터의 10%만큼 작게도) 전체 그래디언트를 근사하는 데 근접하고 무작위 부분집합보다 우수하다.
CRAIG은 SGD, SAGA, SVRG와 호환되며 Covtype 및 Ijcnn1과 같은 대규모 데이터셋에서 실용적 성능 향상을 제공한다.
신경망에서 CRAIG은 MNIST 예처럼 2층 네트워크에서 학습 시간을 줄이고 일반화는 유지되거나 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.