[논문 리뷰] Large Language Model-Enhanced Relational Operators: Taxonomy, Benchmark, and Analysis
이 논문은 LLM-강화 관계 연산자(LROs)에 대한 통합 분류체계, 290개의 단일-LRO 및 60개의 다중-LRO 쿼리를 포함하는 포괄적 벤치마크(LroBench) 및 연산자 구현과 다중-LRO 시스템의 엔드-투-엔드 평가를 소개한다.
With the development of large language models (LLMs), numerous studies integrate LLMs through operator-like components to enhance relational data processing tasks, e.g., filters with semantic predicates, knowledge-augmented table imputation, reasoning-driven entity matching and more challenging semantic query processing. These components invoke LLMs while preserving a relational input/output interface, which we refer to as LLM-Enhanced Relational Operators (LROs). From an operator perspective, unfortunately, these existing LROs suffer from fragmented definition, various implementation strategies and inadequate evaluation benchmarks. To this end, in this paper, we first establish a unified LRO taxonomy to align existing LROs, and categorize them into: Select, Match, Impute, Cluster and Order, along with their operands and implementation variants. Second, we design LROBench, a comprehensive benchmark featuring 290 single-LRO queries and 60 multi-LRO queries, spanning 27 databases across more than 10 domains. LROBench covers all operating logics and operand granularities in its single-LRO workload, and provides challenging multi-LRO queries stratified by query complexity. Based on these, we evaluate individual LROs under various implementations, deriving practical insights into LRO design choices and summarizing our empirical best practices. We further compare the end-to-end performance of existing multi-LRO systems against an LRO suite instantiated with these best practices, in order to investigate how to design an effective LRO set for multi-LRO systems targeting complex semantic queries. Last, to facilitate future work, we outline promising future directions and open-source all benchmark data and evaluation code, available at https://github.com/LROBench/LROBench/.
연구 동기 및 목표
- 이질적인 LRO 정의를 하나의 통합 분류체계(Select, Match, Impute, Cluster, Order)로 정렬하고, 피연산자 세분성(셀, 행, 열, 표) 전체에 걸쳐 적용한다.
- 다양한 도메인에 걸친 단일-LRO 및 다중-LRO 쿼리를 포함하는 포괄적인 연산자- 및 시스템-수준 벤치마크(LroBench)를 생성한다.
- 각 LRO 유형의 구현 변형을 평가하여 실용적 최선의 관행과 절충점을 도출한다.
- 현존하는 다중-LRO 시스템의 엔드투엔드 성능을 최선의 실무 구성과 비교 평가하여 효과적인 LRO 설계를 안내한다.
제안 방법
- 삼차원 LRO 분류체계(동작 로직, 피연산자 세분성, 구현 변형)를 제안한다.
- 27개 데이터베이스에 걸친 290개의 단일-LRO 및 60개의 다중-LRO 쿼리를 포함하는 LroBench를 설계하고, 10개 이상 도메인에 걸쳐 Ground Truth를 수동으로 수집한다.
- 다양한 구현 전략(LLM-ALL vs LLM-ONE; 다양한 조인, 임퓨테이션, 및 정렬 전략) 하에서 개별 LRO를 평가한다.
- 다중-LRO 시스템의 성능을 연산자 수준의 최선의 사례와 비교하여 엔드-투-엔드 가이드라인을 도출한다.
- 참조 저장소의 오픈소스 벤치마크 데이터 및 평가 코드를 제공한다.

실험 결과
연구 질문
- RQ1Q1: How many distinct operating logics underlie current LROs?
- RQ2Q2: How do different LRO implementations impact performance?
- RQ3Q3: How should multi-LRO systems be designed to incorporate operator-level best practices, and do existing systems do so effectively?
주요 결과
- 단일 분류체계(Select, Match, Impute, Cluster, Order) 및 피연산자(셀, 행, 열, 표)와 구현(LLM-ALL vs LLM-ONE) 간의 일관된 분류체계가 제안되고 기존 LRO와 일치하도록 정렬된다.
- LroBench는 27개의 데이터베이스와 10개 이상 도메인에 걸쳐 290개의 단일-LRO 및 60개의 다중-LRO 쿼리를 포함하여 연산자- 및 시스템-수준 평가를 가능하게 한다.
- 평가를 통해 각 LRO 유형에 대한 구체적인 최선의 실무 인사이트를 제시하고 구현 변형 간의 절충점을 식별한다.
- 다중-LRO 시스템의 최선의 실무 구성은 일관되게 다른 설정을 능가하며, 저자들의 실험에서 엔드투엔드 성능 최대 86.67%를 달성했다.
- 저자들은 LRO 벤치마킹 및 분석의 향후 연구를 촉진하기 위해 오픈소스 벤치마크 데이터와 평가 코드를 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.