QUICK REVIEW

[논문 리뷰] Do Less, Get More: Streaming Submodular Maximization with Subsampling

Moran Feldman, Amin Karbasi|arXiv (Cornell University)|2018. 01. 01.

Complexity and Algorithms in Graphs인용 수 28

한 줄 요약

이 논문은 기능 평가 횟수와 메모리 사용을 크게 줄이면서도 날카운 approximation 보장을 달성하는 새로운 일회 스트리밍 알고리즘을 소개한다. $p$-매치로이드 제약 조건 하에서 단조 증가하는 하위모듈라 함수에 대해, $O(k)$ 메모리와 요소당 $O(km/p)$ 쿼리로 $4p$ 근사 비율을 달성하며, 영상 요약 작업에서 최신 기술 대비 최대 오십 배 빠른 성능을 보이며 대규모 데이터셋에서도 효율적으로 확장 가능하다.

ABSTRACT

In this paper, we develop the first one-pass streaming algorithm for submodular maximization that does not evaluate the entire stream even once. By carefully subsampling each element of the data stream, our algorithm enjoys the tightest approximation guarantees in various settings while having the smallest memory footprint and requiring the lowest number of function evaluations. More specifically, for a monotone submodular function and a $p$-matchoid constraint, our randomized algorithm achieves a $4p$ approximation ratio (in expectation) with $O(k)$ memory and $O(km/p)$ queries per element ($k$ is the size of the largest feasible solution and $m$ is the number of matroids used to define the constraint). For the non-monotone case, our approximation ratio increases only slightly to $4p+2-o(1)$. To the best or our knowledge, our algorithm is the first that combines the benefits of streaming and subsampling in a novel way in order to truly scale submodular maximization to massive machine learning problems. To showcase its practicality, we empirically evaluated the performance of our algorithm on a video summarization application and observed that it outperforms the state-of-the-art algorithm by up to fifty-fold while maintaining practically the same utility. We also evaluated the scalability of our algorithm on a large dataset of Uber pick up locations.

연구 동기 및 목표

대규모 머신 러닝 응용 분야에서 하위모듈라 최적화의 확장성 문제를 해결하기 위해.
근사 품질을 희생시키지 않고 스트리밍 하위모듈라 최적화에서 기능 평가 횟수와 메모리 사용량을 줄이기 위해.
단일 패assing으로 데이터를 처리하고 스트림의 평가 횟수를 최소화하는 실용적인 일회 알고리즘을 개발하기 위해.
단조 증가 및 비단조 증가 하위모듈라 함수에 대해 $p$-매치로이드 제약 조건 하에서 날카운 근사 비율을 달성하기 위해.

제안 방법

알고리즘은 스트림 요소의 일부만 평가하는 새로운 부분 표본 추출 전략을 활용하여 계산 오버헤드를 줄인다.
최적 해에 기여할 가능성이 높은 후보 요소의 코어 세트를 유지하기 위해 랜덤 선택 프로세스를 사용한다.
해법의 타당성을 유지하면서 근사 보장을 확보하기 위해 $p$-매치로이드 제약 모델을 통합한다.
현재 해 상태에 따라 샘플링 비율을 동적으로 조정하여 정확도와 효율성의 균형을 이룬다.
알고리즘은 단일 패assing으로 동작하며, $k$는 최대 타당 해의 크기이므로 메모리에 $O(k)$ 요소만 저장한다.
단조 증가 함수의 경우 기대값으로 $4p$ 근사 비율을 달성하고, 비단조 증가 함수의 경우 $4p+2-o(1)$를 달성한다.

실험 결과

연구 질문

RQ1전체 스트림을 평가하지 않아도 되는 일회 스트리밍 알고리즘을 하위모듈라 최적화에 설계할 수 있는가?
RQ2스트리밍 환경에서 최소한의 메모리와 기능 평가 횟수로 달성 가능한 최고의 근사 비율은 무엇인가?
RQ3부분 표본 추출을 어떻게 활용하여 하위모듈라 최적화에서 계산 비용을 줄이면서도 해 품질을 유지할 수 있는가?
RQ4알고리즘이 우버 픽업 위치와 같은 대규모 데이터셋에서도 높은 유용성을 유지하면서 확장 가능한가?

주요 결과

단조 증가 하위모듈라 함수에 대해 $p$-매치로이드 제약 조건 하에서 알고리즘은 기대값으로 $4p$ 근사 비율을 달성한다.
비단조 증가 함수의 경우 근사 비율은 $4p+2-o(1)$이며, 단조 증가 경우와 비교해 약간의 품질 저하만 존재한다.
알고리즘은 $O(k)$ 메모리 사용과 요소당 $O(km/p)$ 기능 쿼리만 필요로 하여 계산 비용을 크게 줄였다.
영상 요약 작업에서 최신 기술 대비 최대 오십 배 빠른 런타임을 기록하면서도 동일한 수준의 유용성을 유지한다.
알고리즘은 우버 픽업 위치와 같은 대규모 데이터셋에서도 효과적으로 확장 가능하여 실세계 머신 러닝 워크로드에 대한 실용성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.