QUICK REVIEW

[論文レビュー] Balancing Sustainability And Performance: The Role Of Small-Scale LLMs In Agentic Artificial Intelligence Systems

Anh Khoa Ngo Ho, Martin Chauvin|arXiv (Cornell University)|Jan 27, 2026

Green IT and Sustainability被引用数 0

ひとこと要約

この論文は、GPT-4oを置換するためにさまざまなサイズのオープンウェイトLLMを評価し、エネルギー消費量、待機遅延、および出力品質を測定して、持続可能で高性能な代替案を特定します。

ABSTRACT

As large language models become integral to agentic artificial intelligence systems, their energy demands during inference may pose significant sustainability challenges. This study investigates whether deploying smaller-scale language models can reduce energy consumption without compromising responsiveness and output quality in a multi-agent, real-world environments. We conduct a comparative analysis across language models of varying scales to quantify trade-offs between efficiency and performance. Results show that smaller open-weights models can lower energy usage while preserving task quality. Building on these findings, we propose practical guidelines for sustainable artificial intelligence design, including optimal batch size configuration and computation resource allocation. These insights offer actionable strategies for developing scalable, environmentally responsible artificial intelligence systems.

研究の動機と目的

リアルワールドのマルチエージェントシステムでのリクエストあたりのエネルギー消費を比較することによるLLMサイズの環境影響を評価する。
モデルとバッチサイズ別のデコード遅延を評価してユーザー体験を評価する。
客観的指標を用いて、GPT-4oリファレンスと比較した小型LLMの出力品質を評価する。
バッチサイズとリソース配分を含む持続可能なAIデザインの実用的なガイドラインを特定する。

提案手法

現実世界のエージェントフレームワークでGPT-4oに対して多様なオープンウェイトLLMをベンチマークする。
ML-Energy BenchmarkとZeusを用いて定常状態推論時のリクエストあたりのエネルギーを測定する。
デコードフェーズ中の待機とプレフィルの影響を評価する。
グラウンデッド/アングラウンデッド/スモールトーク分類に対するF1スコアと、代替指標としての二次LLM-オブ-ジャッジを用いて出力品質を評価する。
エネルギー、待機遅延、品質に対する量子化とKDなどの圧縮技術を分析する。
展開準備が整ったAIシステムを評価するための再現可能なベンチマーク手法を提供する。

実験結果

リサーチクエスチョン

RQ1小型のオープンウェイトLLMは、出力品質の許容されない低下を伴うことなく、リクエストあたりのエネルギー消費を大幅に削減できるのか。
RQ2モデルサイズ、圧縮、バッチ構成はリアルワールド展開における待機遅延と総合的な持続可能性にどのように影響するのか。
RQ3オープンウェイトモデルがマルチエージェント設定でGPT-4oを上回る、または同等である現実的でスケーラブルな構成は存在するのか。
RQ4環境影響、遅延、精度のバランスをとるバッチサイズとハードウェア割り当てを最適化するガイドラインは何か。

主な発見

Model	Energy (Joules)	Decode Latency (Secs)	Output Quality (F1-Score)	LLM-as-a-Judge
GPT-4o baseline	1499 ± 287	0.58 ± 0.1	0.978 ± 0.116	1.0
Qwen3-32B	2382 ± 725	85 ± 26	0.992 ± 0.064	0.918
Qwen3-14B	1177 ± 820	71 ± 49	0.981 ± 0.101	0.876
Qwen3-30B-A3B-Instruct-2507	456 ± 97	50 ± 10	0.956 ± 0.156	0.917
DeepSeek-R1-0528-Qwen3-8B	769 ± 640	56 ± 47	0.962 ± 0.143	0.862
DeepSeek-R1-Distill-Qwen-14B	1104 ± 296	55 ± 14	0.955 ± 0.160	0.854
Mistral-Large-Instruct-2411	8281 ± 2199	21 ± 5	0.958 ± 0.165	0.786
Mistral-Nemo-Instruct-2407	534 ± 358	24 ± 16	0.840 ± 0.301	0.747
Falcon3-10B-Instruct	458 ± 305	11 ± 7	0.905 ± 0.246	0.773
Falcon3-7B-Instruct	335 ± 348	17 ± 17	0.885 ± 0.245	0.910
Phi-4-reasoning	2094 ± 1618	117 ± 90	0.975 ± 0.122	0.488

オープンウェイトLLMはGPT-4oと比較してリクエストあたりのエネルギーを削減できる場合があり、特定の構成で大幅な削減が見られる。
Qwen3-30B-A3B-Instruct-2507は、推論時にわずか3.3Bパラメータのスパース活性化のみを行うことで、約70%のエネルギー削減を実現しつつGPT-4o相当の品質に近い。
Qwen3-32BおよびQwen3-14Bは、多くの設定で高い出力品質（F1スコアおよびLLM-as-a-Judgeスコア）を達成し、GPT-4oより低いエネルギー/待機遅延を維持することが多い。
量子化（4ビット）はエネルギーと遅延を約20%削減でき、場合によってはF1を改善することがある一方、AWQは期待以下になる可能性がある。
バッチサイズはエネルギーと遅延との凸型トレードオフを呈し、小型モデルは大きなバッチサイズで遅延ペナルティが大きくなる。
圧縮手法はエネルギーを減らす一方、出力品質や遅延を損なう可能性があり、慎重なベンチマークとプロンプト最適化の必要性を示す。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。