QUICK REVIEW

[論文レビュー] SSH (Sketch, Shingle, & Hash) for Indexing Massive-Scale Time Series

Luo Chen, Anshumali Shrivastava|arXiv (Cornell University)|Jan 1, 2016

Time Series Analysis and Forecasting参考文献 48被引用数 13

ひとこと要約

本稿では、動的時系列適合（DTW）を用いた大規模時系列データに対する非線形類似度検索を可能にする、データに依存しないハッシュ化手法SSH（Sketch, Shingle, & Hash）を提案する。スケッチ、シャインリング、重み付きミニワイズハッシュの組み合わせにより、DTW類似度とほぼ完全に一致する近似インデックスを生成し、ブランチアンドバウンド手法が失敗する長時間系列に対しても、20倍の高速化と95％の候補削減を達成する。

ABSTRACT

Similarity search on time series is a frequent operation in large-scale data-driven applications. Sophisticated similarity measures are standard for time series matching, as they are usually misaligned. Dynamic Time Warping or DTW is the most widely used similarity measure for time series because it combines alignment and matching at the same time. However, the alignment makes DTW slow. To speed up the expensive similarity search with DTW, branch and bound based pruning strategies are adopted. However, branch and bound based pruning are only useful for very short queries (low dimensional time series), and the bounds are quite weak for longer queries. Due to the loose bounds branch and bound pruning strategy boils down to a brute-force search. To circumvent this issue, we design SSH (Sketch, Shingle, & Hashing), an efficient and approximate hashing scheme which is much faster than the state-of-the-art branch and bound searching technique: the UCR suite. SSH uses a novel combination of sketching, shingling and hashing techniques to produce (probabilistic) indexes which align (near perfectly) with DTW similarity measure. The generated indexes are then used to create hash buckets for sub-linear search. Our results show that SSH is very effective for longer time sequence and prunes around 95% candidates, leading to the massive speedup in search with DTW. Empirical results on two large-scale benchmark time series data show that our proposed method can be around 20 times faster than the state-of-the-art package (UCR suite) without any significant loss in accuracy.

研究の動機と目的

長時間系列におけるDTW類似度検索のためのブランチアンドバウンド手法のスケーラビリティ制限を解消すること。
再トレーニングが高価である必要なく、DTWアライメント特性を保持するデータに依存しないハッシュ化スキームを設計すること。
最小限の精度損失で、大規模時系列ワークロードに対して非線形検索性能を実現すること。
ランダム化と分布に依存しないインデックス化を活用して、次元の呪いを克服すること。

提案手法

時間系列から局所的な時間的パターンを捉えるために、次元Wのランダムフィルタを適用して1ビットスケッチを生成する。
スケッチのビットストリングから高次元のシャインリング（n-gram）を生成し、局所構造を表す重み付き集合を形成する。
シャインリング集合に重み付きミニワイズハッシュを適用して、効率的なバケット化に適した局所性に敏感なハッシュコードを生成する。
複数のスケッチを生成し、時間的シフトに対してより強固になるように、スライディングウインドウとシフトサイズδを用いる。
得られたハッシュコードからハッシュバケットを構築し、候補の非線形検索を可能にする。
スケッチ（ランダムフィルタリング）、シャインリング（n-gram抽出）、ハッシュ（ミニワイズハッシュ）の3段階パイプラインを用いて、アライメントに配慮したインデキシングを実現する。

実験結果

リサーチクエスチョン

RQ1長時間系列に対しても、DTW類似度と密接に一致するデータに依存しないハッシュ化スキームを設計できるか？
RQ2ハッシュベースの候補削減の性能は、長時間系列におけるブランチアンドバウンド手法と比べてどうか？
RQ3SSHフレームワークにおける精度と効率を最適化するパラメータ選択（W, δ, n）は何か？
RQ4本手法は、再トレーニングなしに数百万件の時系列データセットにスケーリングできるか？
RQ5非線形検索複雑度を達成しながら、高い精度を維持できるか？

主な発見

SSHは、DTW検索における現在の最先端であるUCRスイートよりも、2つの大規模時系列ベンチマークで最大20倍の高速化を達成する。
本手法は、約95％の候補時系列を削減し、検索コストを顕著に低減する。
最適パラメータを用いる場合、トップ50検索の精度はほぼ完璧（1.0に近い）を維持する。特に、ECGデータではW=80、ランダムウォークデータではW=30で顕著な精度向上が得られる。
最適なフィルタ次元Wは、ECGでは80、ランダムウォークでは30であり、Wがさらに大きくなると精度がピークに達した後、低下する。
最適なシフトサイズδは、ECGでは3、ランダムウォークでは5であり、精度と前処理コストのバランスを取る。
前処理時間はWとnに線形に比例し、大規模インデキシングにおける本手法の効率性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。