[論文レビュー] Small Language Models are the Future of Agentic AI
本論文は、小規模言語モデル(SLM)は十分に能力があり、経済性が高く、ほとんどのエージェント系AIタスクにより適しているとして、LLMsを選択的にのみ用いる形でエージェント系システムのデフォルトを形成すべきだと主張する。さらに、LLMからSLMへの変換アルゴリズムを概説し、エージェントアーキテクチャの障壁と分散性について論じる。
Large language models (LLMs) are often praised for exhibiting near-human performance on a wide range of tasks and valued for their ability to hold a general conversation. The rise of agentic AI systems is, however, ushering in a mass of applications in which language models perform a small number of specialized tasks repetitively and with little variation. Here we lay out the position that small language models (SLMs) are sufficiently powerful, inherently more suitable, and necessarily more economical for many invocations in agentic systems, and are therefore the future of agentic AI. Our argumentation is grounded in the current level of capabilities exhibited by SLMs, the common architectures of agentic systems, and the economy of LM deployment. We further argue that in situations where general-purpose conversational abilities are essential, heterogeneous agentic systems (i.e., agents invoking multiple different models) are the natural choice. We discuss the potential barriers for the adoption of SLMs in agentic systems and outline a general LLM-to-SLM agent conversion algorithm. Our position, formulated as a value statement, highlights the significance of the operational and economic impact even a partial shift from LLMs to SLMs is to have on the AI agent industry. We aim to stimulate the discussion on the effective use of AI resources and hope to advance the efforts to lower the costs of AI of the present day. Calling for both contributions to and critique of our position, we commit to publishing all such correspondence at https://research.nvidia.com/labs/lpr/slm-agents.
研究の動機と目的
- SLMsは多くのエージェント的タスクに対して十分に強力であり、より適切な運用性を提供することを主張する。
- 適切な場面でSLMsとLLMsを組み合わせたモジュラーで異種のエージェント系システムを提唱する。
- エージェント系ワークフローにおけるSLM展開の経済的および環境的利益を強調する。
提案手法
- 最近のSLMの能力を調査し、エージェント的文脈でLLMsと比較する。具体的なSLMファミリーの例としてPhi, Nemotron-H, SmolLM2, Hymba, DeepSeek, RETRO, xLAMを挙げる。
- SLMsの低遅延、メモリ、計算要件を主張し、これがコスト効果の高いモジュラーなエージェント系アーキテクチャを可能にすることを説明する。
- ツール呼び出し、プロンプティング、推論時の拡張がSLMの性能を向上させる方法を説明する(例: 自己整合性、検証者フィードバック)。
- データ収集、キュレーション、タスククラスタリング、SLM選択、専門的な微調整、反復の手順を含む、実用的なLLM-to-SLMエージェント変換アルゴリズムを提案する。
実験結果
リサーチクエスチョン
- RQ1常識的推論、ツール呼び出し、指示遵守といったコアなエージェントタスクにおいて、SLMsはどの程度までLLMsに匹敵するまたは凌駕できるか。
- RQ2エージェント系システムにおける遅延、エネルギー使用量、総コストの観点で、SLMsはLLMsとどのように比較されるか。
- RQ3デフォルトでSLMsを活用し、LLMsを選択的に活用する異種でモジュラーなエージェント系アーキテクチャは、効率と柔軟性を向上させることができるか。
- RQ4既存のLLMベースのエージェントをSLMベースに変換する実践的なパイプラインは何か。
主な発見
- SLMsは常識的推論やツール使用などのいくつかのエージェント的タスクで、より大きなモデルと同等の性能を達成できる。
- SLMsは同様のタスクに対して大規模LLMsより推論コストを10~30倍低く抑え、遅延とメモリ要件も低い。
- SLMsはモジュラーで異種のエージェント設計と、専門的スキルの迅速なファインチューニングを可能にする。
- 対話中に収集されたエージェントデータは、タスク専門のSLMを訓練するのに再利用可能で、継続的な改善を可能にする。
- データロギング、キュレーション、タスククラスタリング、ファインチューニングの手順を概説する、明示的なLLM-to-SLM変換アルゴリズムが提案されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。