[論文レビュー] GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search
GPU-native ANNS の IVF-RaBitQ を紹介—RaBitQ 量子化を IVF クラスタリングと統合した GPU ネイティブの ANNS により、GPU 上での高速なインデックス構築、高リコール、コンパクトなストレージを実現。グラフベースおよび PQ ベースのベースラインに対して、リコールとスループットのトレードオフが強力であることを実証。
Approximate nearest neighbor search (ANNS) on GPUs is gaining increasing popularity for modern retrieval and recommendation workloads that operate over massive high-dimensional vectors. Graph-based indexes deliver high recall and throughput but incur heavy build-time and storage costs. In contrast, cluster-based methods build and scale efficiently yet often need many probes for high recall, straining memory bandwidth and compute. Aiming to simultaneously achieve fast index build, high-throughput search, high recall, and low storage requirement for GPUs, we present IVF-RaBitQ (GPU), a GPU-native ANNS solution that integrates the cluster-based method IVF with RaBitQ quantization into an efficient GPU index build/search pipeline. Specifically, for index build, we develop a scalable GPU-native RaBitQ quantization method that enables fast and accurate low-bit encoding at scale. For search, we develop GPU-native distance computation schemes for RaBitQ codes and a fused search kernel to achieve high throughput with high recall. With IVF-RaBitQ implemented and integrated into the NVIDIA cuVS Library, experiments on cuVS Bench across multiple datasets show that IVF-RaBitQ offers a strong performance frontier in recall, throughput, index build time, and storage footprint. For Recall approximately equal to 0.95, IVF-RaBitQ achieves 2.2x higher QPS than the state-of-the-art graph-based method CAGRA, while also constructing indices 7.7x faster on average. Compared to the cluster-based method IVF-PQ, IVF-RaBitQ delivers on average over 2.7x higher throughput while avoiding accessing the raw vectors for reranking.
研究の動機と目的
- 大規模で高次元ベクトルに対する高速・メモリ効率の高い GPU ANNS を動機づける。
- 高速なインデックス構築と高リコール検索を可能にする IVF に統合された GPU-native RaBitQ 量子化を開発する。
- スループット最大化とストレージ最小化を目的とした GPU 対応の量子化・距離推定・融合カーネルを設計する。
提案手法
- GPU ベースのベクトルエンコード用クラスタ単位 RaBitQ 量子化パイプラインを開発する。
- 定常的なラウンド数で RaBitQ 再スケーリング因子を探索する GPU 上の二相並列グリッドサーチを提案する。
- 候補を絞り込むための 1-bit コードフィルタリングに続く ex-code refinement を用いた二段階距離推定を採用する。
- フィルタリング・精緻化・Top-K 選択を組み合わせた融合クラスタ局所検索カーネルを実装する。
- メモリコalescing を最大化する CSR ライクなインデックスレイアウトとインタリーブされた 1-bit コードストレージを設計する。
- NVIDIA cuVS Library および cuVS Bench に IVF-RaBitQ を統合し、再現性のある評価を実施する。
実験結果
リサーチクエスチョン
- RQ1GPU-native RaBitQ 量子化を IVF と統合することで、大規模データセットで高リコールを維持しつつ高速なインデックス構築時間を実現できるか。
- RQ21-bit フィルタリングと ex-code refinement を用いた二段階 RaBitQ 距離推定が、リコールを犠牲にせず高スループットを生み出すか。
- RQ3IVF-RaBitQ はリコール・QPS・インデックス構築時間の点で、最新のグラフベースおよび PQ ベースの GPU ANNS と比較してどうか。
主な発見
- Recall が約 0.95 のとき、IVF-RaBitQ は CAGRA(グラフベース)より 2.2x の高い QPS を達成し、平均でインデックス構築を最大 7.7x 高速化。
- IVF-PQ と比較して、IVF-RaBitQ は類似のインデックス構築コストとストレージ・フットプリントで平均して 2.7x 以上のスループリトを実現し、生のベクトルのリランキングを必要としない。
- cuVS Bench の評価全体で、IVF-RaBitQ はリコール・スループット・ストレージのトレードオフが有利で、インデックス構築の高速化とストレージ削減を含む。
- GPU-native RaBitQ 量子化により、IVF フレームワーク内で大規模ベクトル(例:960D で 1M ベクトル)を量子化可能。
- 二段階距離推定(1-bit フィルタリングと ex-code refinement)と融合カーネル設計は、カーネル起動回数とグローバルメモリトラフィックを低減し、高いスループットを維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。