[논문 리뷰] V3DB: Audit-on-Demand Zero-Knowledge Proofs for Verifiable Vector Search over Committed Snapshots
V3DB는 간결한 ZK 증명을 사용하여 커밋된 스냅샷에서 검증 가능하고 버전 관리되는 벡터 검색을 제공하며, 비공개 데이터를 누설하지 않으면서 IVF-PQ 검색의 감사-요청 시점의 정확성을 가능하게 한다.
Dense retrieval services increasingly underpin semantic search, recommendation, and retrieval-augmented generation, yet clients typically receive only a top-$k$ list with no auditable evidence of how it was produced. We present V3DB, a verifiable, versioned vector-search service that enables audit-on-demand correctness checks for approximate nearest-neighbour (ANN) retrieval executed by a potentially untrusted service provider. V3DB commits to each corpus snapshot and standardises an IVF-PQ search pipeline into a fixed-shape, five-step query semantics. Given a public snapshot commitment and a query embedding, the service returns the top-$k$ payloads and, when challenged, produces a succinct zero-knowledge proof that the output is exactly the result of executing the published semantics on the committed snapshot -- without revealing the embedding corpus or private index contents. To make proving practical, V3DB avoids costly in-circuit sorting and random access by combining multiset equality/inclusion checks with lightweight boundary conditions. Our prototype implementation based on Plonky2 achieves up to $22 imes$ faster proving and up to $40\%$ lower peak memory consumption than the circuit-only baseline, with millisecond-level verification time. Github Repo at https://github.com/TabibitoQZP/zk-IVF-PQ.
연구 동기 및 목표
- 커밋된 스냅샷에서 상위 k개의 결과에 대한 검증 가능한 증명을 가능하게 함으로써 외주형 밀집 검색의 책임 문제를 해결한다.
- ZK 증명에 적합한 고정 형태의 IVF-PQ 다섯 단계 쿼리 시맨틱스를 표준화한다.
- 다중집합 기반 증명을 통해 회로 내 정렬 및 임의 접근을 피함으로써 증명 비용을 줄인다.
- 회로-전용 기준선에 비해 실용적 성능 향상을 제공하는 확장 가능한 증명 백엔드를 제공한다.
- Plonky2 기반 프로토타입과 공개 GitHub 리포지토리를 통해 엔드투엔드 타당성을 입증한다.
제안 방법
- 고정 형태의 다섯 단계 쿼리 시맨틱스로 IVF-PQ를 표준화한다(센터로이드 거리, 프로브 선택, ADC 표 구성, PQ 조회 점수화, 최종 top-k 추출).
- 각 리스트의 용량 및 유효성 플래그를 채우는 고정 형상 인덱스 형성 파이프라인을 구현한다.
- 프라이버시를 유지하면서 버전을 묶기 위해 IVF 레이아웃에 대한 Merkle 루트와 PQ 코드북에 대한 해시 다이제스트를 사용하는 두 부분 공개 스냅샷 커밋먼트를 사용한다.
- 회로-전용 기준선과 다중집합 동등성/포함 및 경계 검사로 비싼 정렬/선정을 회로 밖으로 옮기는 최적화된 다중집합 기반 설계를 제안한다.
- Plonky2로 엔드투엔드 증명 비용을 평가하고 회로 기반 기준선 대비 최대 약 22배 빠른 증명 및 최대 약 40% 낮은 피크 메모리, 밀리초 검증 시간을 보여준다.
실험 결과
연구 질문
- RQ1커밋된 스냅샷에서 private 데이터를 노출하지 않고 검증 가능하고 감사 가능한 벡터 검색을 어떻게 달성할 수 있는가?
- RQ2IVF-PQ를 간결한 ZK 증명에 적합한 고정 형태 시맨틱스로 재구성할 수 있는가?
- RQ3 dense retrieval에 대한 ZK 증명의 증명 비용을 어떤 기법으로 줄이되 정확성과 프라이버시를 유지할 수 있는가?
- RQ4다중집합 기반 증명이 이 맥락에서 회로 전용 기준선에 비해 실제 성능 향상을 어떻게 가져오는가?
주요 결과
- 커밋된 스냅샷에 대한 간결 ZK 증명을 이용한 밀집 검색용 검증 가능 버전 관리 벡터 데이터베이스.
- 고정 형태의 다섯 단계 IVF-PQ 시맨틱스가 효율적인 증명 생성을 가능하게 한다.
- 다중집합 기반 증명은 회로 전용 기준선에 비해 증명 시간을 최대 약 22배 단축하고 피크 메모리를 약 40% 감소시킨다.
- 검증은 여전히 밀리세컨드 수준으로 유지되며 코퍼스나 프라이빗 인덱스 내용을 노출하지 않는다.
- 프로토타입 구현(회로-전용 기준선 및 최적화된 다중집합 설계)이 실용적인 감사-요청 증명을 보여주며 재현을 위한 공개 GitHub 리포지토리가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.