[논문 리뷰] A Survey on Efficient Inference for Large Language Models
본 고찰은 LLM 추론의 효율 기법을 데이터-, 모델-, 시스템- 수준 최적화로 분류하고, 실험적 비교와 향후 방향을 제시한다.
Large Language Models (LLMs) have attracted extensive attention due to their remarkable performance across various tasks. However, the substantial computational and memory requirements of LLM inference pose challenges for deployment in resource-constrained scenarios. Efforts within the field have been directed towards developing techniques aimed at enhancing the efficiency of LLM inference. This paper presents a comprehensive survey of the existing literature on efficient LLM inference. We start by analyzing the primary causes of the inefficient LLM inference, i.e., the large model size, the quadratic-complexity attention operation, and the auto-regressive decoding approach. Then, we introduce a comprehensive taxonomy that organizes the current literature into data-level, model-level, and system-level optimization. Moreover, the paper includes comparative experiments on representative methods within critical sub-fields to provide quantitative insights. Last but not least, we provide some knowledge summary and discuss future research directions.
연구 동기 및 목표
- 비효율적인 LLM 추론의 주된 원인들(모델 크기, 이차적 어텐션, 자동회귀 디코딩)을 설명한다.
- 데이터, 모델, 시스템 수준 전반에 걸친 효율성 기법의 포괄적 분류체계를 제공한다.
- 대표적 방법에 대한 비교 실험을 요약하여 실용적인 지침을 제공한다.
- 효율적인 LLM 추론을 위한 향후 연구 방향과 지식 종합에 대해 논의한다.
제안 방법
- LLM 효율성에 관한 문헌을 데이터-레벨, 모델-레벨, 시스템-레벨 최적화로 분석하고 분류한다 (Sec. 3).
- 핵심 하위 분야의 대표적 방법들에 대한 비교 실험을 제공하여 정량적 통찰을 얻는다 (Sec. 4–6).
- 지식 종합과 향후 연구 방향에 대해 논의한다 (Sec. 7–8).
- 분류체계적 프레임워크를 개요하고 하드웨어 가속기 고려사항을 논의한다 (Sec. 6.3).
실험 결과
연구 질문
- RQ1비효율적인 LLM 추론을 야기하는 주요 병목은 무엇인가?
- RQ2데이터-, 모델-, 시스템- 수준 최적화를 어떻게 구성하여 LLM의 추론 효율성을 향상시킬 수 있는가?
- RQ3대표적 효율 추론 방법의 효과성에 대해 비교 실험은 무엇을 보여 주는가?
- RQ4효율적인 LLM 추론을 위한 향후 방향과 남아 있는 과제는 무엇인가?
- RQ5하드웨어 및 서빙 시스템 고려사항이 효율적 추론에 어떤 영향을 미치는가?
주요 결과
- LLM 추론 효율성은 큰 모델 크기, 이차적 어텐션 복잡도, KV-캐시 메모리 고려를 동반한 자동회귀 디코딩으로 저해된다.
- 데이터-레벨, 모델-레벨, 시스템-레벨의 3단계 분류 체계가 문헌을 조직하고 실용적 최적화를 안내한다.
- 대표적 방법들에 대한 비교 실험은 모델 양자화, 서빙 시스템 등 하위 분야 전반에 걸친 정량적 통찰을 제공한다.
- 데이터-레벨 접근법(입력 압축, 출력 정렬)은 비용과 지연을 줄이기 위해 프리필링(frPilling)과 디코딩 단계에 초점을 맞춘다.
- 모델-레벨 전략에는 효율적인 구조 설계와 모델 압축이 포함되며, FFN 및 어텐션 효율성에 중점을 둔다; 시스템-레벨 최적화은 추론 엔진과 스케줄링에 집중한다.
- 본 연구는 실행 가능한 권고사항을 제공하고 향후 연구 방향 및 하드웨어 고려사항을 논의한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.