QUICK REVIEW

[논문 리뷰] HyperMinHash: Jaccard index sketching in LogLog space.

Yun William Yu, Griffin M. Weber|arXiv (Cornell University)|2017. 10. 23.

Adversarial Robustness in Machine Learning인용 수 8

한 줄 요약

HyperMinHash는 각 버킷당 O(log l + log log |A ∪ B|) 비트만을 사용하여 두 집합 간의 재결합 지수를 추정하는 스트리밍 확률적 스케치이다. 이는 MinHash에 비해 저장소 사용을 크게 줄인다. 64KiB 메모리에서 상대 오차가 O(1/l + √(k/δ)) 수준이 되며, 이는 10^19까지의 집합 크기에서 정확한 재결합 추정을 가능하게 하여, 동일한 메모리 제약 조건 하에서 MinHash의 10^10 한계를 훨씬 초월한다.

ABSTRACT

In this extended abstract, we describe and analyse a streaming probabilistic sketch, HYPERMINHASH, to estimate the Jaccard index (or Jaccard similarity coefficient) over two sets $A$ and $B$. HyperMinHash can be thought of as a compression of standard MinHash by building off of a HyperLogLog count-distinct sketch. Given Jaccard index $\delta$, using $k$ buckets of size $O(\log(l) + \log\log(|A \cup B|))$ (in practice, typically 2 bytes) per set, HyperMinHash streams over $A$ and $B$ and generates an estimate of the Jaccard index $\delta$ with error $O(1/l + \sqrt{k/\delta})$. This improves on the best previously known sketch, MinHash, which requires the same number of storage units (buckets), but using $O(\log(|A \cup B|))$ bit per bucket. For instance, our new algorithm allows estimating Jaccard indices of 0.01 for set cardinalities on the order of $10^{19}$ with relative error of around 5% using 64KiB of memory; the previous state-of-the-art MinHash can only estimate Jaccard indices for cardinalities of $10^{10}$ with the same memory consumption. Alternately, one can think of HyperMinHash as an augmentation of b-bit MinHash that enables streaming updates, unions, and cardinality estimation (and thus intersection cardinality by way of Jaccard), while using $\log\log$ extra bits.

연구 동기 및 목표

MinHash에 비해 훨씬 낮은 메모리 사용량을 갖는 스트리밍 스케치를 설계하여 재결합 유사도를 추정하는 것.
제한된 메모리로도 매우 큰 집합(최대 10^19 요소)에 대해 정확한 재결합 지수 추정을 가능하게 하는 것.
카디널리티 추정과 유니온 연산을 하나의 컴act한 스트리밍 호환 스케치에 통합하는 것.
MinHash에서 각 버킷당 O(log |A ∪ B|) 비트에서 HyperMinHash는 O(log l + log log |A ∪ B|) 비트로 줄여, LogLog 스토리지에 가까운 수준을 달성하는 것.

제안 방법

HyperMinHash는 표준 MinHash를 HyperLogLog 스타일의 카운트-디스티نك트 스케치를 통합하여 집합의 카디널리티를 효율적으로 추적함으로써 압축한다.
k개의 버킷을 사용하며, 각 버킷은 일반적으로 2바이트 정도의 O(log l + log log |A ∪ B|) 비트를 저장한다. 이는 압축된 저장소를 가능하게 한다.
알고리즘은 집합 A와 B를 스트리밍으로 처리하며, 해시 값들을 유지하고 확률적 카운팅을 적용하여 재결합 유사도를 추정한다.
재결합 지수를 계산하기 위해, 카디널리티와 교집합 크기를 추정하기 위해 HyperLogLog 추정기를 활용한다.
스케치는 스트리밍 업데이트, 유니온, 카디널리티 추정을 네이티브로 지원하며, b비트 MinHash 功能을 확장한다.
오차 한계는 O(1/l + √(k/δ))로 유도되며, 여기서 l은 해시 함수의 수이고 k는 버킷 수이다.

실험 결과

연구 질문

RQ1HyperLogLog의 메모리 사용에 가까운 수준을 유지하면서도 MinHash의 정확도를 유지하는 스케치를 설계할 수 있는가?
RQ2HyperLogLog 카운팅 원리를 활용해 MinHash를 압축할 경우 도달할 수 있는 오차 한계는 무엇인가?
RQ3이 스케치는 동일한 컴act한 구조 내에서 스트리밍 업데이트, 유니온, 카디널리티 추정을 지원할 수 있는가?
RQ4특히 10^10 요소를 초월하는 경우, 이 방법의 메모리 효율성은 집합 카디널리티 증가에 따라 어떻게 변화하는가?

주요 결과

64KiB 메모리로 10^19까지의 집합 크기에서 재결합 지수를 추정할 경우, HyperMinHash는 약 5%의 상대 오차를 달성한다.
이 방법은 MinHash의 각 버킷당 O(log |A ∪ B|) 비트에서 HyperMinHash는 O(log l + log log |A ∪ B|) 비트로 줄여, 상당한 메모리 절감을 가능하게 한다.
동일한 64KiB 메모리 예산 하에서, HyperMinHash는 최대 10^19의 집합 카디널리티를 지원하지만, MinHash는 약 10^10에 한정된다.
스케치는 네이티브로 스트리밍 업데이트, 유니온, 카디널리티 추정을 지원하며, 컴act한 형태로 b비트 MinHash의 功能을 확장한다.
오차 한계 O(1/l + √(k/δ))는 더 많은 버킷(k)과 더 높은 l 값에서 정확도가 향상되며, 낮은 재결합 지수에서도 강건함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.