[논문 리뷰] Small Language Models are the Future of Agentic AI
본 논문은 소형 언어 모델(SLM)이 충분히 강력하고 경제적이며 대부분의 에이전틱 AI 작업에 더 적합하다고 주장하며, LLM을 선택적으로만 사용하는 에이전틱 시스템에서 기본값으로 삼아야 한다고 제안한다. 또한 LLM-에서 SLM으로의 변환 알고리즘을 개략하고, 에이전틱 아키텍처의 제약과 이질성에 대해 논의한다.
Large language models (LLMs) are often praised for exhibiting near-human performance on a wide range of tasks and valued for their ability to hold a general conversation. The rise of agentic AI systems is, however, ushering in a mass of applications in which language models perform a small number of specialized tasks repetitively and with little variation. Here we lay out the position that small language models (SLMs) are sufficiently powerful, inherently more suitable, and necessarily more economical for many invocations in agentic systems, and are therefore the future of agentic AI. Our argumentation is grounded in the current level of capabilities exhibited by SLMs, the common architectures of agentic systems, and the economy of LM deployment. We further argue that in situations where general-purpose conversational abilities are essential, heterogeneous agentic systems (i.e., agents invoking multiple different models) are the natural choice. We discuss the potential barriers for the adoption of SLMs in agentic systems and outline a general LLM-to-SLM agent conversion algorithm. Our position, formulated as a value statement, highlights the significance of the operational and economic impact even a partial shift from LLMs to SLMs is to have on the AI agent industry. We aim to stimulate the discussion on the effective use of AI resources and hope to advance the efforts to lower the costs of AI of the present day. Calling for both contributions to and critique of our position, we commit to publishing all such correspondence at https://research.nvidia.com/labs/lpr/slm-agents.
연구 동기 및 목표
- SLMs가 많은 에이전틱 작업에 충분히 강력하며 더 나은 운영 적합성을 제공한다고 주장한다.
- 적절한 경우 SLM과 LLM을 결합한 모듈형의 이질적 에이전틱 시스템을 옹호한다.
- 에이전틱 워크플로우에서 SLM 배치의 경제적 및 환경적 이점을 강조한다.
제안 방법
- 최근 SLM의 능력을 조사하고 에이전틱 맥락에서 LLM과 비교하며 구체적인 SLM 계열(Phi, Nemotron-H, SmolLM2, Hymba, DeepSeek, RETRO, xLAM)의 예를 제시한다.
- SLM의 더 낮은 대기시간(latency), 메모리 및 계산 요구사항을 주장하고, 이것이 비용 효율적이고 모듈형인 에이전틱 아키텍처를 가능하게 하는 방식을 설명한다.
- 툴 호출, 프롬프팅, 추론 시간 증강이 SLM 성능을 어떻게 향상시킬 수 있는지 설명한다(예: 자기일관성, 검증기 피드백).
- 데이터 수집, 선별, 작업 클러스터링, SLM 선정, 특화된 파인튜닝, 반복의 단계로 구성된 실용적인 LLM-to-SLM 에이전트 변환 알고리즘을 제안한다.
실험 결과
연구 질문
- RQ1상식 추론, 도구 호출, 지시 수행과 같은 핵심 에이전틱 과제에서 SLM이 LLM과 얼마나 대등하게 혹은 능가할 수 있는가?
- RQ2에이전틱 시스템에서 대기시간(latency), 에너지 사용, 총 비용 측면에서 SLM은 LLM에 비해 어떻게 비교되는가?
- RQ3기본적으로 SLM을 활용하고 필요 시 LLM을 선택적으로 사용하는 이질적이고 모듈형의 에이전트 아키텍처가 효율성과 유연성을 향상시킬 수 있는가?
- RQ4기존의 LLM 기반 에이전트를 SLM 기반으로 변환하기 위한 실용적인 파이프라인은 무엇인가?
주요 결과
- SLMs는 상식 추론 및 도구 사용과 같은 여러 에이전틱 과제에서 더 큰 모델과 비견할 만한 성능을 달성할 수 있다.
- SLMs는 유사한 작업에 대해 대형 LLM보다 10~30배 저렴한 추론 비용을 제공하며, 더 낮은 대기시간과 메모리 요구를 가진다.
- SLMs는 모듈형이며 이질적인 에이전트 설계와 특화된 기술의 신속한 파인튜닝을 가능하게 한다.
- 상호작용 중 수집된 에이전트 데이터는 작업 특화 SLM 교육에 재사용되어 지속적인 개선을 가능하게 한다.
- 명시적 LLM-to-SLM 변환 알고리즘이 제안되었으며, 데이터 로깅, 선별, 작업 클러스터링 및 파인튜닝 단계가 개략적으로 제시된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.