[論文レビュー] Semantic Caching and Intent-Driven Context Optimization for Multi-Agent Natural Language to Code Systems
The paper presents a production-optimized multi-agent NL2Code system that uses semantic caching, a dual-threshold cache decision, and intent-driven prompts to convert natural language queries into executable Python, achieving 94.3% semantic accuracy with 8.2s latency on 10k+ queries.
We present a production-optimized multi-agent system designed to translate natural language queries into executable Python code for structured data analytics. Unlike systems that rely on expensive frontier models, our approach achieves high accuracy and cost efficiency through three key innovations: (1) a semantic caching system with LLM-based equivalence detection and structured adaptation hints that provides cache hit rates of 67% on production queries; (2) a dual-threshold decision mechanism that separates exact-match retrieval from reference-guided generation; and (3) an intent-driven dynamic prompt assembly system that reduces token consumption by 40-60% through table-aware context filtering. The system has been deployed in production for enterprise inventory management, processing over 10,000 queries with an average latency of 8.2 seconds and 94.3% semantic accuracy. We describe the architecture, present empirical results from production deployment, and discuss practical considerations for deploying LLM-based analytics systems at scale.
研究の動機と目的
- 企業の NL2Code 導入におけるコスト・待機時間・ドメイン精度の課題へ対処する。
- LLM ベースの同値検出と構造化適応ヒントを備えたセマンティック・キャッシュを導入し、キャッシュ利用を改善する。
- 正確一致検索とリファレンス指向生成を分離する二段階閾値決定機構を開発する。
- トークン使用量を削減しつつ精度を維持する意図駆動型動的プロンプト組み立てシステムを実装する。
- 10,000件超のクエリでの導入実績を示し、待機時間と精度を定量化する。
提案手法
- LangGraph によって調整される Guard、Intent Classifier、Reference Matcher、Planner、Python、Executor、Business Insights Generator のエージェントからなるマルチエージェントアーキテクチャを提案する。
- 構造的意図を捉える階層5レベルの QuerySignature を定義し、堅牢なキャッシュマッチングを実現する。
- 正確一致は (s ≥ 0.995) 、ガイドモードは (0.50 ≤ s < 0.995) の二段階閾値キャッシュを実装する。
- トップk キャッシュ候補に対してLLMベースの意味的同値検出を適用し、プランナー主導の適応のための構造化適応を生成する。
- 識別されたテーブルとドメイン語彙でプロンプトを絞り込み、トークン数を40-60%削減する意図駆動型動的プロンプト組み立てを採用する。
- 評価は生産導入データを用い、指標として意味的精度、キャッシュヒット/ガイド率、待機時間、トークン数、コストを用いる。
実験結果
リサーチクエスチョン
- RQ1意味的キャッシュとLLMベースの同値検出は企業向け NL2Code ワークロードにどの程度効果的か。
- RQ2二段階閾値キャッシュ戦略は本番の NL2Code システムにおいて精度とコストのバランスを取れるか。
- RQ3意図駆動型プロンプト組み立ては精度を損なうことなくトークン使用量を大幅に削減できるか。
- RQ4提案システムの実運用での性能特性(待機時間、精度、キャッシュ利用度)はどうなるか。
主な発見
| Metric | Value |
|---|---|
| Semantic Accuracy | 94.3% |
| Cache Return Rate | 23.1% |
| Cache Guide Rate | 44.2% |
| Total Cache Utilization | 67.3% |
| Average Latency (all queries) | 8.2s |
| Average Tokens per Query | 32,450 |
| Average Cost per Query | $0.0089 |
- 意味的精度は本番クエリで 94.3% を達成した。
- 総キャッシュ利用率は 67.3% に達した。
- キャッシュリターン率(s ≥ 0.995)は 23.1% だった。
- キャッシュガイド率(s ≥ 0.50)は 44.2% だった。
- 全クエリの平均待機時間は 8.2 秒。キャッシュリターンは 2.1 秒、新規生成は 16.4 秒。
- クエリあたりの平均トークン数は 32,450、クエリあたりの平均コストは $0.0089。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。