[论文解读] V3DB: Audit-on-Demand Zero-Knowledge Proofs for Verifiable Vector Search over Committed Snapshots
V3DB 提供经 verifiable、版本化的向量搜索,基于提交的快照并使用简明的 ZK 证明,实现 IVF-PQ 检索的按需审计正确性,同时不暴露私有数据。
Dense retrieval services increasingly underpin semantic search, recommendation, and retrieval-augmented generation, yet clients typically receive only a top-$k$ list with no auditable evidence of how it was produced. We present V3DB, a verifiable, versioned vector-search service that enables audit-on-demand correctness checks for approximate nearest-neighbour (ANN) retrieval executed by a potentially untrusted service provider. V3DB commits to each corpus snapshot and standardises an IVF-PQ search pipeline into a fixed-shape, five-step query semantics. Given a public snapshot commitment and a query embedding, the service returns the top-$k$ payloads and, when challenged, produces a succinct zero-knowledge proof that the output is exactly the result of executing the published semantics on the committed snapshot -- without revealing the embedding corpus or private index contents. To make proving practical, V3DB avoids costly in-circuit sorting and random access by combining multiset equality/inclusion checks with lightweight boundary conditions. Our prototype implementation based on Plonky2 achieves up to $22 imes$ faster proving and up to $40\%$ lower peak memory consumption than the circuit-only baseline, with millisecond-level verification time. Github Repo at https://github.com/TabibitoQZP/zk-IVF-PQ.
研究动机与目标
- 通过对提交快照上的顶-k 结果提供可验证证明来弥补外包密集检索的问责缺口。
- 标准化固定形状的 IVF-PQ 五步查询语义,适用于 ZK 证明。
- 通过多集证明,避免在电路中排序和随机访问,从而降低证明成本。
- 提供可扩展的证明后端,在实际性能方面优于仅电路基线。
- 以基于 Plonky2 的原型和公开的 GitHub 仓库演示端到端的可行性。
提出的方法
- 将 IVF-PQ 标准化为固定形状的五步查询语义(质心距离、探测选择、ADC 表构建、PQ 查找评分、最终 top-k 提取)。
- 实现固定形状的索引塑形流水线,强制每个列表的容量和填充,并带有效性标志。
- 使用两部分公开快照承诺(IVF 布局的 Merkle 根和 PQ 码本的哈希摘要)来绑定版本并保护隐私。
- 提出两种电路实例:一个仅电路的基线,以及一个优化的多集设计,通过多集相等/包含和边界检查将成本高的排序/选择移出电路。
- 使用 Plonky2 评估端到端的证明成本,证明速度提升可达 ~22x,峰值内存下降约 ~40%(相对于电路基线),验证时间为毫秒级。
实验结果
研究问题
- RQ1如何在提交快照上实现可验证、可审计的向量搜索,同时不暴露私有数据?
- RQ2IVF-PQ 是否可以重构为适用于简洁 ZK 证明的固定形状语义?
- RQ3哪些技术在保持正确性和隐私的前提下,可以降低 ZK 证明密集检索的成本?
- RQ4在本环境中,多集证明相对于仅电路基线的实际性能提升有哪些?
主要发现
- 一个可验证、版本化的向量数据库,用于在提交快照上进行密集检索,并使用简洁的 ZK 证明。
- 固定形状的五步 IVF-PQ 语义使得证明生成更高效。
- 多集证明将证明时间在大约 22x 的范围内降低,峰值内存约降低 40%,相较于仅电路基线。
- 验证仍在毫秒级别,并且不暴露语料库或私有索引内容。
- 原型实现(电路基线和优化的多集设计)在 Plonky2 中展示出可行的按需审计证明,并有公开的 GitHub 仓库以确保可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。