[논문 리뷰] Semantic Caching and Intent-Driven Context Optimization for Multi-Agent Natural Language to Code Systems
본 논문은 Semantic caching, 이중 임계값 캐시 결정, 및 의도 기반 프롬프트를 활용하여 자연어 질의를 실행 가능한 파이썬으로 변환하는 생산 최적화 다중 에이전트 NL2Code 시스템을 제시하며, 10k+ 질의에서 94.3%의 의미 정확도와 8.2초의 지연 시간을 달성했다.
We present a production-optimized multi-agent system designed to translate natural language queries into executable Python code for structured data analytics. Unlike systems that rely on expensive frontier models, our approach achieves high accuracy and cost efficiency through three key innovations: (1) a semantic caching system with LLM-based equivalence detection and structured adaptation hints that provides cache hit rates of 67% on production queries; (2) a dual-threshold decision mechanism that separates exact-match retrieval from reference-guided generation; and (3) an intent-driven dynamic prompt assembly system that reduces token consumption by 40-60% through table-aware context filtering. The system has been deployed in production for enterprise inventory management, processing over 10,000 queries with an average latency of 8.2 seconds and 94.3% semantic accuracy. We describe the architecture, present empirical results from production deployment, and discuss practical considerations for deploying LLM-based analytics systems at scale.
연구 동기 및 목표
- 기업용 NL2Code 배포에서 비용, 대기 시간(지연), 도메인 정밀도의 도전 과제 해결.
- LLM 기반 등가 탐지 및 구조화된 적응 힌트를 갖춘 시맨틱 캐시를 도입하여 캐시 활용도를 개선.
- 정확 일치 검색과 참조 기반 생성 구분을 위한 이중 임계값 의사결정 메커니즘 개발.
- 정확도 유지 while reducing tokens
- 토큰 사용량을 줄이면서 정확도를 유지하기 위한 의도 기반 동적 프롬프트 구성 시스템 구현.
- 10,000건 이상의 질의에 걸친 생산 배포 결과를 지연 시간 및 정확도 지표로 수치화하여 시연.
제안 방법
- LangGraph로 조정되는 다중 에이전트 아키텍처를 제안: Guard, Intent Classifier, Reference Matcher, Planner, Python, Executor, Business Insights Generator 에이전트.
- 견고한 캐시 매칭을 위한 구조적 의도를 포착하는 다섯 계층의 QuerySignature 정의.
- 정확 일치(s ≥ 0.995)와 가이드 모드(0.50 ≤ s < 0.995)로 구성된 이중 임계값 캐시 구현.
- 상위-k 캐시 후보에 대해 LLM 기반 시맨틱 등가 탐지를 사용해 Planner-가이드 적응을 위한 구조화된 적응 생성.
- 식별된 테이블 및 도메인 용어로 프롬프트를 필터링하여 토큰 수를 40-60% 감소시키는 의도 기반 동적 프롬프트 구성 도입.
- 생산 배포 데이터에 대해 의미 정확도, 캐시 적중/가이드 비율, 지연 시간, 토큰 수, 비용 등의 지표로 평가.
실험 결과
연구 질문
- RQ1기업 NL2Code 워크로드에 대해 의미 캐싱과 LLM 기반 등가 탐지가 얼마나 효과적인가?
- RQ2생산 NL2Code 시스템에서 정확도와 비용의 균형을 맞추는 이중 임계값 캐시 전략은 가능한가?
- RQ3의도 기반 프롬프트 구성은 정확도를 희생하지 않으면서 토큰 사용량을 크게 줄일 수 있는가?
- RQ4제안된 시스템의 실제 기업 질의에 대한 생산 성능 특성(지연 시간, 정확도, 캐시 활용도)은 어떠한가?
주요 결과
| 지표 | 값 |
|---|---|
| Semantic Accuracy | 94.3% |
| Cache Return Rate | 23.1% |
| Cache Guide Rate | 44.2% |
| Total Cache Utilization | 67.3% |
| Average Latency (all queries) | 8.2s |
| Average Tokens per Query | 32,450 |
| Average Cost per Query | $0.0089 |
- 의미 정확도는 생산 질의에서 94.3%를 달성했다.
- 총 캐시 활용도는 67.3%에 도달했다.
- 캐시 반환 비율(s ≥ 0.995)은 23.1%였다.
- 캐시 가이드 비율(s ≥ 0.50)은 44.2%였다.
- 전체 질의에 대한 평균 지연 시간은 8.2초였고; 캐시 반환 2.1초; 신규 생성 16.4초.
- 질의당 평균 토큰 수는 32,450개이며 평균 질의 비용은 $0.0089이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.