Skip to main content
QUICK REVIEW

[논문 리뷰] Sustainable LLM Inference using Context-Aware Model Switching

Yuvarani, Akashdeep Singh|arXiv (Cornell University)|2026. 02. 25.
Big Data and Digital Economy인용 수 0
한 줄 요약

논문은 맥락 인식 모델 전환 프레임워크를 제시합니다. 동적으로 LLM 쿼리를 적절한 크기의 모델로 라우팅하여 에너지를 절약하면서 출력 품질을 보존하고, 캐싱, 규칙 기반 복잡도 점수 매기기, ML 분류, 그리고 사용자 적응 구성 요소를 사용합니다.

ABSTRACT

Large language models have become central to many AI applications, but their growing energy consumption raises serious sustainability concerns. A key limitation in current AI deployments is the reliance on a one-size-fits-all inference strategy where most systems route every request to the same large model, regardless of task complexity, leading to substantial and unnecessary energy waste. To address this issue, we propose a context-aware model switching approach that dynamically selects an appropriate language model based on query complexity. The proposed system uses a Context-Aware Model Switching for Energy-Efficient LLM Inference that combines caching for repeated queries, rulebased complexity scoring for fast and explainable decisions, machine learning classification to capture semantic intent, and a user-adaptive component that learns from interaction patterns over time. The proposed architecture was evaluated using real conversation workloads and three open-source language models (Gemma3 1B, Gemma3 4B and Qwen3 4B) with different computational costs, measuring energy consumption (via NVML GPU power telemetry), response latency, routing accuracy, and output quality (BERTScore F1) to reflect real-world usage conditions. Experimental results show that the model switching approach can reduce energy consumption by up to 67.5% compared to always using the largest model while maintaining a response quality of 93.6%. In addition, the response time for simple queries also improved significantly by approximately 68%. These results show that model switching inference offers a practical and scalable path toward more energy-efficient and sustainable AI systems, demonstrating that significant efficiency gains can be achieved without major sacrifices in response quality.

연구 동기 및 목표

  • LLM 추론에서 대형 모델 일괄 라우팅에 의존하는 것을 피하고 에너지 소비를 줄이는 동기를 제시한다.
  • 쿼리 복잡도와 의미적 의도에 따라 모델을 선택하는 맥락 인식 전환 아키텍처를 제안한다.
  • 오픈 소스 모델을 사용한 실제 워크로드에서 에너지 절감 및 품질 트레이드오프를 시연한다.
  • 캐싱 및 적응 학습을 도입해 라우팅 결정을 시간에 따라 개선한다.

제안 방법

  • 중복 쿼리에 대해 캐싱을 사용하여 중복 계산을 피한다.
  • 빠르고 해석 가능한 라우팅 결정을 가능하게 하는 규칙 기반 복잡도 점수 매기기를 사용한다.
  • 쿼리의 의미적 의도를 포착하기 위해 기계 학습 분류를 적용한다.
  • 시간에 따른 상호 작용 패턴에서 학습하는 사용자 적응 구성요소를 통합한다.
  • 에너지를 위해 NVML GPU 전력 원격 측정치, 응답 시간의 대기시간, 라우팅 정확도, 출력 품질을 위한 BERTScore F1 등을 평가한다.
  • 실제 대화 워크로드 하에서 Gemma3 1B, Gemma3 4B, 그리고 Qwen3 4B 모델로 테스트한다.

실험 결과

연구 질문

  • RQ1맥락 인식 모델 전환이 LLM 추론에서 출력 품질을 해치지 않으면서 에너지 소비를 줄일 수 있습니까?
  • RQ2캐싱, 복잡도 점수 매기기, 그리고 ML 기반 의도 분류가 효과적인 모델 라우팅에 어떻게 기여합니까?
  • RQ3여러 오픈 소스 모델을 서로 다른 쿼리 복잡도에 사용했을 때 에너지, 대기 시간, 라우팅 정확도, 품질에 어떤 함의가 있습니까?
  • RQ4사용자 적응 구성요소가 장기적인 라우팅 결정에 도움을 줍니까?

주요 결과

  • 항상 가장 큰 모델을 사용하는 것에 비해 에너지 소비를 최대 67.5%까지 줄일 수 있습니다.
  • 스위칭에서도 93.6%(BERTScore F1)의 보고된 품질로 출력 품질이 여전히 높습니다.
  • 간단한 쿼리는 응답 시간이 약 68% 크게 개선됩니다.
  • 평가는 실제 대화 워크로드와 세 가지 오픈 소스 모델(Gemma3 1B, Gemma3 4B, Qwen3 4B)을 사용합니다.
  • 시스템은 에너지 소비를 측정하기 위해 NVML GPU 원격 측정을 사용합니다.
  • 아키텍처는 캐싱, 규칙 기반 점수 매기기, ML 분류, 사용자 적응 구성을 통합하여 효율성과 품질의 균형을 이룹니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.