[論文レビュー] Evolving LLM-Derived Control Policies for Residential EV Charging and Vehicle-to-Grid Energy Optimization
要約: 本論文は、LLM が居住用 EV 充電/ V2G の実行可能な Python 方針を作成する六段階の進化パイプラインを提示し、透明で監査可能なコードとともに利益・快適性・安全性のバランスを EV2Gym-Residential で評価します。
This research presents a novel application of Evolutionary Computation to the domain of residential electric vehicle (EV) energy management. While reinforcement learning (RL) achieves high performance in vehicle-to-grid (V2G) optimization, it typically produces opaque "black-box" neural networks that are difficult for consumers and regulators to audit. Addressing this interpretability gap, we propose a program search framework that leverages Large Language Models (LLMs) as intelligent mutation operators within an iterative prompt-evaluation-repair loop. Utilizing the high-fidelity EV2Gym simulation environment as a fitness function, the system undergoes successive refinement cycles to synthesize executable Python policies that balance profit maximization, user comfort, and physical safety constraints. We benchmark four prompting strategies: Imitation, Reasoning, Hybrid and Runtime, evaluating their ability to discover adaptive control logic. Results demonstrate that the Hybrid strategy produces concise, human-readable heuristics that achieve 118% of the baseline profit, effectively discovering complex behaviors like anticipatory arbitrage and hysteresis without explicit programming. This work establishes LLM-driven Evolutionary Computation as a practical approach for generating EV charging control policies that are transparent, inspectable, and suitable for real residential deployment.
研究の動機と目的
- RL ベースの V2G 制御における解釈可能性のギャップを、明示的で監査可能な制御方針を作成することで解消する。
- 高忠実度シミュレータで評価される Python 決定関数を生成する六段階パイプラインを開発する。
- 基準となるヒューリスティックと比較して、Reasoning、Imitation、Hybrid、Runtime の prompting 戦略をベンチマークする。
- LLM 派生方針が解釈可能なコードで競争的な利益を達成できることを示す。
- 居住用エネルギーシステムにおけるコードを方針としての規制・実務展開を評価する。
提案手法
- Ledgers からの状態–行動のコンパクトな入力データセットと 24h 価格予測を作成する。
- ガードレール付きで LLM に decide_power(... ) という Python 関数を生成させる。
- 生成された方針を EV2Gym-Residential で複数日ロールアウトにて実行する。
- 定量的報酬と反例を収集して反復的修正ループを導く。
- 方針を利益・基線への適合性・安全制約の観点から比較する。
- 効果を測る four prompting strategies(Imitation、Reasoning、Hybrid、Runtime)を分析する。
実験結果
リサーチクエスチョン
- RQ1動的条件に適応しつつ物理・ユーザー制約を尊重する居住用 V2G の明示的・解釈可能な制御方針を Large Language Model が生成・逐次改善できるか。
- RQ2LLM 演化的方針合成アプローチは、高忠実度の V2G シミュレータにおいて基準ヒューリスティックの性能と同等または上回る透明で監査可能な解を生み出すか。
主な発見
| 戦略 | Baseline Reward | Appeared Reward | Relative Baseline | API Cost |
|---|---|---|---|---|
| Pure Reasoning | 8.865 | 6.210 | 70.1% | Low |
| Pure Imitation | 8.865 | 6.790 | 76.6% | Low |
| Hybrid Iterative | 2.660 | 3.150 | 118.0% | Moderate |
| Runtime LLM | 8.865 | 16.843 | 190.0% | High |
- Hybrid 戦略は、簡潔で人間が読めるヒューリスティクスを用いて基準利益の 118% を達成。
- Hybrid Iterative 方針は 24h 価格予測を用いた先回りの裁定を発見し、基準を 18% 超過して利益を改善。
- Pure Reasoning は較正に難航し裁定機会を逃し、差分は 29.9% の赤字。
- Pure Imitation は基準挙動に一致したが革新的性が乏しく、潜在報酬の 76.6%)。
- Runtime LLM 方針は相対的な性能が最も高く、基準の 190% を達成したが API コストが高い。
- 進化した方針は解釈可能性を保ち、進化したコードはしばしば簡潔である(例: 15 行)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。