Skip to main content
QUICK REVIEW

[논문 리뷰] Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

Dujian Ding, Ankur Mallick|arXiv (Cornell University)|2024. 04. 22.
Caching and Content Delivery인용 수 6
한 줄 요약

본 논문은 비용 효율적인 소형 LLM과 고품질 대형 LLM 사이에서 쿼리를 라우팅하는 하이브리드 추론 프레임워크를 도입하며, 학습된 라우터를 사용하여 대형 모델 호출을 최대 40% 줄이고 품질 저하를 거의 없게 한다.

ABSTRACT

Large language models (LLMs) excel in most NLP tasks but also require expensive cloud servers for deployment due to their size, while smaller models that can be deployed on lower cost (e.g., edge) devices, tend to lag behind in terms of response quality. Therefore in this work we propose a hybrid inference approach which combines their respective strengths to save cost and maintain quality. Our approach uses a router that assigns queries to the small or large model based on the predicted query difficulty and the desired quality level. The desired quality level can be tuned dynamically at test time to seamlessly trade quality for cost as per the scenario requirements. In experiments our approach allows us to make up to 40% fewer calls to the large model, with no drop in response quality.

연구 동기 및 목표

  • 대형 LLM 배포에서 비용과 품질의 문제를 제시하고, 하이브리드 추론이 클라우드 비용을 줄일 수 있음을 보여준다.
  • 쿼리의 난이도와 품질 격차를 예측하여 소형 모델 또는 대형 모델로 라우팅하는 라우터를 제안한다.
  • LLM 출력의 비결정성을 도입하여 라우팅 판단을 개선한다.
  • 새로운 데이터 변환으로 데이터 불균형과 모델 쌍 간의 큰 성능 차이를 해결한다.
  • 다양한 LLM 쌍과 MixInstruct 벤치마크에 걸친 광범위한 실증 검증을 제공한다.

제안 방법

  • 각 쿼리를 소형 모델 S 또는 대형 모델 L로 할당하는 라우터 r을 정의한다.
  • 소형 모델에 대한 쉬운 쿼리를 나타내는 점수 p_w(x)를 예측하기 위해 DeBERTa-v3-large 기반 라우터를 사용한다.
  • H(x) = q(S(x)) − q(L(x)) 인 경우 Pr[H(x) ≥ 0]를 근사하도록 결정론적 및 확률적 라우터 변형을 학습한다.
  • LLM의 비결정성을 반영하기 위해 다중 샘플로 추정된 soft 라벨 y^prob_i를 갖는 확률적 라우터를 도입한다.
  • 레이블 분포의 균형을 맞추기 위해 y^trans_i(t) = Pr[H(x_i) ≥ −t]인 데이터 변환을 갖는 확률적 라우터를 개발하고 t*를 최적화한다.
  • 세 가지 라우팅 전략(r_det(결정론적), r_prob(확률적), 및 r_trans(변환 포함 확률적))을 평가한다.
  • 응답 품질 지표 q(·)로 BART 점수를 사용하고 비용 우위는 소형 모델로 전송된 쿼리의 비율(%)로 정의한다.
  • MixInstruct에서 FLAN-T5 계열, Llama-2 계열, GPT-3.5-turbo를 포함한 모델 쌍으로 실험을 수행한다.

실험 결과

연구 질문

  • RQ1라우터가 소형 모델이 대형 모델과 유사한 품질로 다양한 NLP 작업에서 답변할 수 있는 '쉬운' 쿼리를 효과적으로 식별할 수 있는가?
  • RQ2소형과 대형 LLM 간 라우팅 시 달성 가능한 비용 절감(비용 우위)과 그에 따른 품질 영향은 무엇인가?
  • RQ3다른 성능 차이에서 결정론적, 확률적 및 변환 라벨 라우팅 변형은 어떻게 비교되는가?
  • RQ4쉬운 쿼리와 어려운 쿼리 간 데이터 불균형과 LLM 비결정성에 대해 라우팅 방법은 얼마나 robust한가?
  • RQ5실용적 배치를 위한 테스트 시 어떤 임계치를 사용하여 비용과 품질의 균형을 맞춰야 하는가?

주요 결과

  • 라우터는 소형 모델로 상당 부분의 쿼리를 보내도 품질 저손실을 유지하며, 일부 설정에서 최대 40%의 비용 우위를 달성할 수 있다.
  • 확률적 및 변환 라벨 라우터가 일반적으로 결정론적 라우터보다 우수하며, 모델 간 성능 차이가 클수록 그렇다.
  • 작은에서 보통 수준의 성능 차이에서는 품질 저하가 매우 작거나 없으면서 약 20%–40%의 비용 우위를 달성할 수 있다.
  • 변환 라벨 라우터(r_trans)는 상당한 모델 차이에서도 강력한 성능을 유지하며, 결정론적 및 표준 확률적 라우터에 비해 뚜렷한 이점을 제공한다.
  • 라우터 지연은 LLM 추론에 비해 무시할 수할 정도로 작으며, 라우터 지연은 약 0.036초이고 모델 지연은 0.46초에서 14.61초 사이이다.
  • 보정 세트에서 선택된 경험적 임계값은 테스트 세트에 일반화되어 비슷한 비용-품질 트레이드오프를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.