[논문 리뷰] Semantic Operators: A Declarative Model for Rich, AI-based Data Processing
Semantic Operators는 구조화된 데이터와 비구조화된 데이터에 대해 대량 처리하는 AI 기반 시맨틱 연산자를 확장하는 관계형 패러다임의 선언적 LOTUS 프로그래밍 모델을 도입하며, 이는 사실 확인, 극단적 다중레이블 분류, 검색 작업에 걸쳐 시연됩니다.
The semantic capabilities of large language models (LLMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems either empirically optimize expensive LLM-powered operations with no performance guarantees, or serve a limited set of row-wise LLM operations, providing limited robustness, expressiveness and usability. We introduce semantic operators, the first formalism for declarative and general-purpose AI-based transformations based on natural language specifications (e.g., filtering, sorting, joining or aggregating records using natural language criteria). Each operator opens a rich space for execution plans, similar to relational operators. Our model specifies the expected behavior of each operator with a high-quality gold algorithm, and we develop an optimization framework that reduces cost, while providing accuracy guarantees with respect to a gold algorithm. Using this approach, we propose several novel optimizations to accelerate semantic filtering, joining, group-by and top-k operations by up to $1,000 imes$. We implement semantic operators in the LOTUS system and demonstrate LOTUS' effectiveness on real, bulk-semantic processing applications, including fact-checking, biomedical multi-label classification, search, and topic analysis. We show that the semantic operator model is expressive, capturing state-of-the-art AI pipelines in a few operator calls, and making it easy to express new pipelines that match or exceed quality of recent LLM-based analytic systems by up to $170\%$, while offering accuracy guarantees. Overall, LOTUS programs match or exceed the accuracy of state-of-the-art AI pipelines for each task while running up to $3.6 imes$ faster than the highest-quality baselines. LOTUS is publicly available at https://github.com/lotus-data/lotus.
연구 동기 및 목표
- 전통적인 RAG 및 LM-UDF 접근법을 넘어선 대량 시맨틱 처리의 필요성을 제시한다.
- AI 기반 데이터 작업을 위한 관계형 모델을 확장하는 선언적 프로그래밍 인터페이스(semantic operators)를 정의한다.
- 다양한 응용 분야(사실 확인, 다중 라벨 분류, 검색)에서 LOTUS의 표현력과 최적화 기능을 시연한다.
- 시맨틱 연산자가 개발 오버헤드를 줄이고 효율성을 높인 고품질 파이프라인을 가능하게 함을 보여준다.
제안 방법
- 구조화된 데이터와 비구조화된 데이터에서 작동하는 확장 가능한 언어 기반 원시 연산자인 semantic operators(sem_filter, sem_join, sem_sim_join, sem_agg, sem_topk, sem_map, sem_extract, sem_cluster_by, sem_search, sem_index, load_sem_index)를 도입한다.
- LOTUS에서 Pandas와 유사한 API 구현을 제공하고 매개변수화된 자연어 표현(langex)이 AI 기반 predicate, 집계, 투영을 어떻게 지정하는지 설명한다.
- 연산 비용이 큰 연산자에 대한 병렬 배치 추론, 모델 캐스케이드, 시맨틱 인덱스, 알고리즘적 근사치를 활용하는 최적화 및 실행 전략을 설명한다.
- 구조화된 필드와 NL 텍스트를 모두 포함하는 표를 이용한 데이터 모델링과 효율적인 질의를 위한 시맨틱 유사도 지수의 사용을 설명한다.
- 기존 LM 도구(vLLM, FAISS)와의 통합 및 연산자 전반에 걸친 프롬프트의 재사용 또는 수정 가능성을 개략적으로 설명한다.
- 여러 연산자를 결합하여 복합 AI 기반 파이프라인을 구축하는 방법을 보여주는 예제 프로그램을 제시한다.

실험 결과
연구 질문
- RQ1시맨틱 연산자가 대량 시맨틱 처리에 대해 임시적(RAG) 파이프라인에 대한 확장 가능하고 표현력 있는 대안을 제공할 수 있는가?
- RQ2선언적 LOTUS 모델이 혼합 데이터 유형에 걸친 AI 기반 연산의 효율적 구성을 어떻게 가능하게 하는가?
- RQ3시맨틱 연산자의 정확도와 실행 시간을 가장 잘 균형 잡는 최적화 및 알고리즘은 무엇인가?
- RQ4사실 확인, 극단적 다중 라벨 분류, 검색 작업에서 LOTUS가 최첨단 파이프라인을 재현하거나 능가할 수 있는 정도는 어느 수준인가?
주요 결과
- LOTUS는 코드 줄 수를 줄이고 실행 시간을 크게 단축하면서 최첨단 사실 확인 파이프라인(FEVER)을 재현하고 개선할 수 있다.
- 최적화된 LOTUS 프로그램은 비최적화 버전 및 FacTool과 비교해 FEVER에서 더 높은 정확도와 최대 7–34× 더 빠른 실행 속도를 달성한다.
- 극단적 다중 라벨 분류를 위한 LOTUS의 조인 기반 알고리즘은 순진한 조인보다 최대 800× 빠른 실행 속도를 제공하면서 최첨단 결과 품질과 일치한다.
- 검색 및 랭킹에서 LOTUS 구성은 일반적인 검색기와 재랭커 설정보다 5.9–49.4% 더 높은 nDCG@10를 달성하고, LM 기반 랭킹 방법보다 1.67–10× 낮은 실행 시간을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.