Skip to main content
QUICK REVIEW

[논문 리뷰] Optimizing LLM Queries in Relational Data Analytics Workloads

Shuming Liu, A. Biswal|arXiv (Cornell University)|2024. 03. 09.
Data Mining Algorithms and Applications인용 수 6
한 줄 요약

본 논문은 입력 재배치를 통해 LLM이 호출하는 SQL 쿼리를 가속화하고, 프롬프트 중복 제거 및 Spark 기반 분석 워크플로우 내 LLM 비용 추정 기법을 제시하여 end-to-end 지연 시간에서 최대 4.4x 감소를 달성한다.

ABSTRACT

Batch data analytics is a growing application for Large Language Models (LLMs). LLMs enable users to perform a wide range of natural language tasks, such as classification, entity extraction, and translation, over large datasets. However, LLM inference is highly costly and slow: for example, an NVIDIA L4 GPU running Llama3-8B can only process 6 KB of text per second, taking about a day to handle 15 GB of data; processing a similar amount of data costs around $10K on OpenAI's GPT-4o. In this paper, we propose novel techniques that can significantly reduce the cost of LLM calls for relational data analytics workloads. Our key contribution is developing efficient algorithms for reordering the rows and the fields within each row of an input table to maximize key-value (KV) cache reuse when performing LLM serving. As such, our approach can be easily applied to existing analytics systems and serving platforms. Our evaluation shows that our solution can yield up to 3.4x improvement in job completion time on a benchmark of diverse LLM-based queries using Llama 3 models. Our solution also achieves a 32% cost savings under OpenAI and Anthropic pricing models.

연구 동기 및 목표

  • 관계형 워크로드가 LLM 추론 성능을 개선할 여지를 제공함을 시연한다.
  • 열과 행의 입력 재배치를 통해 KV 캐시 적중률을 최대화하는 방법을 개발한다.
  • 불필요한 LLM 호출을 줄이기 위해 중복 제거 및 LLM 비용 추정을 도입한다.
  • 제안된 기법을 Apache Spark에서 백엔드로 vLLM을 사용하여 구현하고 평가한다.
  • 실제 LLM 보강 분석 작업을 반영하는 벤치마킹 스위트를 제공한다.

제안 방법

  • Spark 내에서 LLM-augmented SQL 쿼리와 UDF 기반 LLM 호출을 정의한다.
  • KV 캐시 히트를 높이기 위해 열 및 행 재배치를 통한 prefix sharing maximization (PSM)을 제안한다.
  • 중복 제거 및 LLM 비용 추정을 도입하여 중복 호출을 줄이고 최적화를 안내한다.
  • vLLM의 프리픽 관리에 대한 eviction-aware KV 캐시 전략을 개발한다.
  • UDF 프롬프트, 출력 후처리, 프롬프트 구성을 통합하는 4K-line PySpark 기반 파이프라인을 구현한다.
  • Amazon reviews, Rotten Tomatoes, 및 SQuAD 데이터셋에서 다양한 벤치마크(Q1–Q5)를 구축하고 실행한다.

실험 결과

연구 질문

  • RQ1LLM 보강 SQL 쿼리에서 입력 데이터의 정렬 및 그룹화가 KV 캐시 효율성에 어떤 영향을 미칠 수 있는가?
  • RQ2중복 제거와 비용 인지 최적화가 LLM 호출 및 엔드투엔드 지연 시간을 얼마나 감소시킬 수 있는가?
  • RQ3실세계 LLM 쿼리에 대한 엔드투엔드 지연 시간에 열 수준 및 행 수준 재배치의 영향은 무엇인가?
  • RQ4다양한 쿼리 유형(프로젝션, 필터링, 다중 LLM, 집계, RAG) 및 데이터셋 간에 LLM 호출 최적화의 비교는 어떻게 되는가?
  • RQ5LLM 연산자 비용을 반영하여 더 나은 쿼리 계획을 생성하도록 SQL 옵티마이저를 확장할 수 있는가?

주요 결과

  • LLM 보강 쿼리 모음에서 엔드투엔드 지연 시간이 1.5–4.4x 개선된다.
  • KV 캐시 프리픽 공유가 열 및 행 재배치를 통한 캐시 재사용과 더 빠른 추론을 낳는다.
  • 중복 제거는 쿼리 의미를 손상시키지 않으면서 LLM 호출을 줄여 실행 시간을 단축한다.
  • 비용 인지 SQL 최적화가 계획에서 LLM 호출을 상향 조정하여 불필요한 호출을 최소화한다.
  • 실제 데이터셋(Amazon Reviews, Rotten Tomatoes, SQuAD)에 대한 평가에서 FIFO-전용 캐싱보다 상당한 속도 증가를 보인다.
  • Spark와 vLLM을 사용한 구현은 엔드투엔드 쿼리에서 최대 4.4x 지연 시간 감소를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.