QUICK REVIEW

[論文レビュー] Computing Extremely Accurate Quantiles Using t-Digests

Ted Dunning, Otmar Ertl|arXiv (Cornell University)|Feb 11, 2019

Distributed and Parallel Computing Systems参考文献 3被引用数 42

ひとこと要約

本論文は、尾部での精度を特に高く保ちつつ少ないメモリで正確な分位推定を行うオンラインデータ構造「t-digests」を紹介し、ダイジェストのマージと制御された誤差上限のための異なるスケール関数の利用方法を示している。

ABSTRACT

We present on-line algorithms for computing approximations of rank-based statistics that give high accuracy, particularly near the tails of a distribution, with very small sketches. Notably, the method allows a quantile $q$ to be computed with an accuracy relative to $\max(q, 1-q)$ rather than absolute accuracy as with most other methods. This new algorithm is robust with respect to skewed distributions or ordered datasets and allows separately computed summaries to be combined with no loss in accuracy. An open-source Java implementation of this algorithm is available from the author. Independent implementations in Go and Python are also available.

研究の動機と目的

分布の尾部で特に高い精度を持つ順位ベースの統計を近似するオンラインアルゴリズムを提供する。
分位推定のための定数メモリ使用量と定数相対誤差を達成する。
規模の大きい分析のために、独立したダイジェストを精度を損なうことなくマージできるようにする。
大規模または分割データセットから t-digests を構築するための柔軟な処理モード（バッファ→マージとストリーミングクラスタリング）を有効にする。

提案手法

t-digest を、平均と重さを持つクラスタにサンプルを分割する定義とする。
クラスタサイズを制限し尾部の精度を確保するために、スケール関数 k(q) を用いる。
2 つの構築方法を提供する：バッファーとマージ、点ごと最近傍クラスタクラスタリング。
独立した t-digests をマージしてサイズ保証と相対精度を保持できるようにする。
さまざまなクラスタ構成下でクラスタ間の経験的CDFを補間する方法を説明する。
セントロイド数とダイジェストのマージ特性に関する保証を伴う代替スケール関数（k0, k1, k2, k3）を提供する。
データバッファを既存の t-digest に段階的にマージするアルゴリズム（Algorithm 1）と、クラスタリング変種（Algorithm 2）を提示する。

実験結果

リサーチクエスチョン

RQ1オンライン分位推定をどのようにして定数メモリで高い精度、特に分布の尾部近くで達成できるか？
RQ2独立に計算されたダイジェストを、精度や順序性を損なうことなくマージできるか？
RQ3尾部の精度・全体誤差・ダイジェストサイズのバランスをとるために、クラスタサイズを最もよく制御するスケール関数はどれか？
RQ4実際には、異なるダイジェスト構築アプローチ（バッファー-マージ vs クラスタリング）が精度と性能にどう影響するか？
RQ5クラスタ化されたデータに対して、どの補間スキームが正確な分位推定をもたらすか？

主な発見

t-digests は尾部近傍を含む分位に対して、ほぼ一定の相対誤差を伴う定常メモリを提供する。
スケール関数はクラスタサイズを制限し、極端な分位が小さなクラスタを使用するようにして尾部の精度を向上させ、クラスタ数の爆発を防ぐ。
独立した t-digests のマージは、特定のスケール関数下で精度を保持した有効なダイジェストを生み出し、並列処理やOLAP用途を可能にする。
異なるスケール関数（k0, k1, k2, k3）はダイジェストサイズ、精度、尾部挙動のトレードオフを提供し、k2/k3 は尾部クラスタリングを強化する。
クラスタ間の補間スキームは、複数サンプルクラスタやシングルトンクラスタのケースを処理し、CDF推定を改善する。
経験的な結果は、δ=100 で q が 0 に近い場合または 1 に近い場合に尾部が1桁ppmの誤差を達成し、中間範囲の精度は特定のスケール（k1 vs k2/k3）を好むことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。