[論文レビュー] RuleSmith: Multi-Agent LLMs for Automated Game Balancing
RuleSmith は多エージェント LLM 自己対話とベイズ最適化を組み合わせて、非対称・パラメータ化されたゲーム(CivMini)を自動的にバランスさせ、ほぼ同等の勝率を達成し、解釈可能なルール調整を提供します。
Game balancing is a longstanding challenge requiring repeated playtesting, expert intuition, and extensive manual tuning. We introduce RuleSmith, the first framework that achieves automated game balancing by leveraging the reasoning capabilities of multi-agent LLMs. It couples a game engine, multi-agent LLMs self-play, and Bayesian optimization operating over a multi-dimensional rule space. As a proof of concept, we instantiate RuleSmith on CivMini, a simplified civilization-style game containing heterogeneous factions, economy systems, production rules, and combat mechanics, all governed by tunable parameters. LLM agents interpret textual rulebooks and game states to generate actions, to conduct fast evaluation of balance metrics such as win-rate disparities. To search the parameter landscape efficiently, we integrate Bayesian optimization with acquisition-based adaptive sampling and discrete projection: promising candidates receive more evaluation games for accurate assessment, while exploratory candidates receive fewer games for efficient exploration. Experiments show that RuleSmith converges to highly balanced configurations and provides interpretable rule adjustments that can be directly applied to downstream game systems. Our results illustrate that LLM simulation can serve as a powerful surrogate for automating design and balancing in complex multi-agent environments.
研究の動機と目的
- 非手作業のヒューリスティックなしに、言語モデルエージェントを用いて非対称でルール駆動型ゲームのバランスを自動化する。
- パラメータ化されたルール空間を活用して、健康、経済、生産、スコアリングがバランスに与える影響を研究する。
- 取得ベースの適応サンプリングによる高価でノイズのある評価を扱う効率的な最適化ループを開発する。
提案手法
- パラメータ化ルール空間 θ から非対称派閥(帝国と遊牧民)を演じる2つのLLMエージェントをインスタンス化する。
- バランスを評価する損失関数 L(θ) = |w_E - 0.5| + |w_N - 0.5| + 0.5 * w_D を、N 回の自己対戦で推定する。
- 連続緩和されたルール空間上でベイズ最適化により θ を最適化し、その後有効な構成へ決定論的に離散化する。
- 期待改善(Expected Improvement)に基づく適応サンプリングを用いて、有望な候補へ評価ゲームをより多く割り当てる。
- 関連するテキスト規則を取得する Retrieval-Augmented Generation(RAG)システムを組み込み、各ターンの全ユニットの構造化された JSON アクションを出力する。
- CivMini を題材として、2つのファクションと経済、戦闘、生産、採点の12個の調整可能パラメータを含む7×7 グリッドでこの手法を実証する。

実験結果
リサーチクエスチョン
- RQ1 executable なルールブックに基づく多エージェント LLM 自己対話は、パラメータ化された非対称ゲームのバランス評価に有用な情報を生み出せるか。
- RQ2LLM 主導の自己対話とベイズ最適化の結合は、高次元空間でのバランスを取るルール構成の効率的な発見を可能にするか。
- RQ3モデル容量と評価予算がバランスの結果と設定間での最適化パラメータの移行性にどう影響するか。
- RQ4非対称ファクションをバランスさせる際、経済、戦闘、生産、スコアリングに対してどのような解釈可能な調整が現れるか。
主な発見
- RuleSmith は CivMini において勝率差がほぼ0%へ収束する高度にバランスの取れた構成へ収束する。
- 最適化されたパラメータは、健康スケーリング、資源効率、生産テンポが公平性にどのように影響するかに関する解釈可能な洞察を生み出す。
- 取得ベースの予算配分を伴う適応サンプリングは、固定サンプル BO やランダムベースラインより効率を改善する。
- モデル容量が一致する評価設定間では、バランスのとれたパラメータが移行する。大規模モデルはクロスプレイで戦略的優位を示す。
- アブレーション研究は、適応サンプリングが固定サンプリングや他のベースラインより、ほぼ等勝率を達成する点で優れている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。