Skip to main content
QUICK REVIEW

[論文レビュー] Timehash: Hierarchical Time Indexing for Efficient Business Hours Search

Jinoh Kim, Jaewon Son|arXiv (Cornell University)|Mar 3, 2026
Time Series Analysis and Forecasting被引用数 0
ひとこと要約

Timehash は階層的で多分解能の時系列インデックス手法を導入し、ビジネス時間検索のインデックスサイズを大幅に削減しつつ、分単位の精度とビジネス時間検索における100%の再現性/適合度を維持します。

ABSTRACT

Temporal range filtering is a critical operation in large-scale search systems, particularly for location-based services that need to filter businesses by operating hours. Traditional approaches either suffer from poor query performance (scope filtering) or index size explosion (minute-level indexing). We present Timehash, a novel hierarchical time indexing algorithm that achieves over 99% reduction in index size compared to minute-level indexing while maintaining 100% precision. Timehash employs a flexible multi-resolution strategy with customizable hierarchical levels. Through empirical analysis on distributions from 12.6 million business records of a production location search service, we demonstrate a data-driven methodology for selecting optimal hierarchies tailored to specific data distributions. We evaluated Timehash on up to 12.6 million synthetic POIs generated from production distributions. Experimental results show that a five-level hierarchy reduces index terms to 5.6 per document (99.1% reduction versus minute-level indexing), with zero false positives and zero false negatives. Scalability benchmarks confirm constant per-document cost from 100K to 12.6M POIs, while supporting complex scenarios such as break times and irregular schedules. Our approach is generalizable to various temporal filtering problems in search systems, e-commerce, and reservation platforms.

研究の動機と目的

  • 大規模 inverted indexにおけるビジネス時間検索のための時間レンジインデックスの問題を形式化する。
  • Timehash を提案する。これは階層的な多解像度アルゴリズムで、時間レンジを拡張可能で人間が読みやすい時間バケットへ分解する。
  • 実データ分布に合わせて最適な階層を選択するデータ駆動型手法を実証する。
  • 理論的な空間と正確性の保証を証明し、生産規模のデータでスケーラビリティを検証する。

提案手法

  • 階層的な時間粒度集合を定義する(例:4時間、1時間、15分、5分、1分)し、各ステップで最も適合するブロックを贪欲法でカバーする。
  • 分単位の精度を保持する複数の Timehash キーを時間レンジを表すように生成する。
  • すべての階層レベルでクエリキーを生成し、点クエリの完全な再現性を保証し、レンジクエリをサポートする。
  • 空間計算量が O(T/m1) であることを証明し、キー数の最大境界を小さく一定に保つ(検証済み階層では最大 28)。
  • getIndexTerms(from, to) および getQueryTerms(hhmm) の機能を持つ C++ ライブラリ実装を提供する。
  • 最大 1260万の合成/生産 POI で手法を検証し、インデックスサイズ削減を 99.1%、偽陽性ゼロ/偽陰性ゼロを実証する。

実験結果

リサーチクエスチョン

  • RQ1ビジネス時間の小さなインデックスサイズで分単位の精度を維持しつつ、 temporal range filtering をどう実現できるか?
  • RQ2階層的・多解像度のエンコーディングは、正確性を損なうことなく文書あたりのインデックス用語数を削減できるか?
  • RQ3Timehash の理論的空間・クエリ計算量はどの程度で、実際の生産データでどう機能するか?
  • RQ4サイズと精度のバランスを取るために、与えられた時系列分布に対して最適な階層をどう選択すべきか?
  • RQ5Timehash は break times、 irregular schedules、 overnight ranges のような複雑なパターンを効率を維持しつつ扱えるか?

主な発見

  • 5 段階の階層(4時間、1時間、15分、5分、1分)が、インデックスサイズと精度の最適なトレードオフを実現する。
  • Timehash は文書あたりのインデックス用語を分単位のインデックスから 99.1%削減(例では 5 キー)し、偽陽性ゼロ・偽陰性ゼロを達成。
  • 空間計算量は O(T/m1) で、素朴な分単位インデックスに対する定数倍の削減を表し、最悪ケースのキー数の経験的上限は 28(分は 1,440 と比較)にとどまる。
  • この手法はブレークタイム、 irregular schedules、24時間運用をサポートし、100k から 12.6M POI へ線形スケールする。
  • 本番導入は 18 ヶ月をカバーし、12.6 百万POIをインデックス化、プロダクション検索ワークロードに対して timing と信頼性を満たす。
  • コードとアーティファクトは再現性のため提供された GitHub リポジトリに公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。