[논문 리뷰] Cost-Effective Hyperparameter Optimization for Large Language Model Generation Inference
EcoOptiGen은 예산 제약 하에서 추론 하이퍼파라미터를 공동으로 조정하고 비용 인식 베이지안/로컬 탐색과 가지치기를 사용하여 HELM 기본 설정 대비 여러 LLM 태스크에서 유용성을 향상시킵니다.
Large Language Models (LLMs) have sparked significant interest in their generative capabilities, leading to the development of various commercial applications. The high cost of using the models drives application builders to maximize the value of generation under a limited inference budget. This paper presents a study of optimizing inference hyperparameters such as the number of responses, temperature and max tokens, which significantly affects the utility/cost of text generation. We design a framework named EcoOptiGen which leverages economical hyperparameter optimization and cost-based pruning. Experiments with the GPT-3.5/GPT-4 models on a variety of tasks verify its effectiveness. EcoOptiGen is implemented in the `autogen' package of the FLAML library: \url{https://aka.ms/autogen}.
연구 동기 및 목표
- 추론 시간 하이퍼파라미터를 최적화하여 고정된 비용 예산 하에서 유용성을 극대화할 필요성을 동기 부여합니다.
- 비용 기반 가지치기를 갖춘 경제적 하이퍼파라미터 최적화 프레임워크인 EcoOptiGen을 제안합니다.
- 조합된 하이퍼파라미터 조정이 단일 파라미터 조정이나 기본 설정보다 더 나은 결과를 낳는지 보여줍니다.
- 코드 생성, 수학 문제 해결, 텍스트 요약 태스크 전반에서의 효과를 입증합니다.
제안 방법
- 탐색 데이터와 비용 예산 하에서 생성 품질을 정량화하는 유틸리티 함수를 정의합니다.
- 효율성을 위한 베이지안 최적화와 로컬 탐색을 결합한 경제적 탐색 전략(BlendSearch)을 사용합니다.
- 비용/토큰에 기반한 검증 전략으로 무효한 시도를 조기에 폐기하는 구성을 도입합니다.
- n, max_tokens, temperature, top_p, 프로ンプ트와 같은 하이퍼파라미터의 기본 탐색 공간을 제공하고 사용자가 맞춤 설정 가능하도록 합니다.
- 데이터 부분 샘플링과 Hoeffding-Serfling 경계를 통해 시도를 가지치고 토큰을 절약합니다.
- APPS, HumanEval, MATH, XSum에서 GPT-3.5/GPT-4 스타일 모델에 EcoOptiGen을 적용하여 HELM 및 기타 베이스라인과 비교합니다.
실험 결과
연구 질문
- RQ1EcoOptiGen이 주어진 추론 예산 하에서 기본 HELM 설정 대비 얼마나 많은 유용성을 얻을 수 있는가?
- RQ2추론 예산의 변화가 EcoOptiGen의 최적화 결과에 어떤 영향을 미치는가?
- RQ3조정된 경우에 GPT-3.5/ChatGPT 모델 간에 EcoOptiGen의 성능은 어떻게 달라지는가?
- RQ4 joint 하이퍼파라미터 최적화가 응답 수를 늘리는 것보다 더 효과적인가?
- RQ5가지치기가 최적화 효율성과 최종 유용성에 미치는 영향은 무엇인가?
주요 결과
| Method | APPS | HumanEval | MATH | XSum |
|---|---|---|---|---|
| HELM | 0.03 | 0.465 | 0.378 | 0.140 |
| EcoOptiGen (HELM budget) | 0.05 | 0.521 | 0.414 | 0.144 |
| Search | 0 | 0.493 | 0.769 | 0.136 |
| Search+PSR | 0 | 0.493 | 0.739 | - |
| EcoOptiGen | 0.05 | 0.792 | 0.771 | 0.144 |
| HELM (modified) | 0.03 | 0.701 | 0.403 | 0.140 |
- EcoOptiGen은 HELM의 모든 네 가지 데이터 세트에서 최적화되지 않은 GPT-3.5 모델보다 더 나은 성능을 보인다.
- 가지치기와 다중 하이퍼파라미터의 공동 조정은 비가지치기나 단일 파라미터 접근법에 비해 상당한 효율성 및 성능 개선을 가져온다.
- 조정된 모델은 HELM에서 권장된 모델과 다를 수 있으며, 최고 성능의 모델은 데이터 세트와 예산에 따라 다르다.
- 추론 예산을 증가시키면 일반적으로 최적화된 유용성이 더 높아지며, 다만 최적화 예산이 충분해야 한다.
- MATH에서 ChatGPT 모델을 평가할 때, 조정된 GPT-3.5-turbo가 특정 수준에서 untuned GPT-4를 능가할 수 있어 모델 선택이 태스크 및 예산에 따라 다름을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.