[论文解读] Evolving LLM-Derived Control Policies for Residential EV Charging and Vehicle-to-Grid Energy Optimization
论文提出一个六阶段进化管线,其中一个大型语言模型为住宅区电动车充电/车网互联(V2G)编写可执行的 Python 策略,在 EV2Gym-Residential 中进行评估,以透明、可审计的代码平衡利润、舒适度和安全性。
This research presents a novel application of Evolutionary Computation to the domain of residential electric vehicle (EV) energy management. While reinforcement learning (RL) achieves high performance in vehicle-to-grid (V2G) optimization, it typically produces opaque "black-box" neural networks that are difficult for consumers and regulators to audit. Addressing this interpretability gap, we propose a program search framework that leverages Large Language Models (LLMs) as intelligent mutation operators within an iterative prompt-evaluation-repair loop. Utilizing the high-fidelity EV2Gym simulation environment as a fitness function, the system undergoes successive refinement cycles to synthesize executable Python policies that balance profit maximization, user comfort, and physical safety constraints. We benchmark four prompting strategies: Imitation, Reasoning, Hybrid and Runtime, evaluating their ability to discover adaptive control logic. Results demonstrate that the Hybrid strategy produces concise, human-readable heuristics that achieve 118% of the baseline profit, effectively discovering complex behaviors like anticipatory arbitrage and hysteresis without explicit programming. This work establishes LLM-driven Evolutionary Computation as a practical approach for generating EV charging control policies that are transparent, inspectable, and suitable for real residential deployment.
研究动机与目标
- 通过生成显式、可审计的控制策略来解决基于 RL 的 V2G 控制的可解释性差距。
- 开发一个六阶段管线,使得 LLM 能生成在高保真仿真器中评估的 Python 决策函数。
- 对提示策略进行基准比较(推理、模仿、混合、运行时),并与基线启发式方法比较。
- 证明由 LLM 推导的策略能够在可解释代码的前提下实现具有竞争力的利润。
- 评估在住宅能源系统中将代码作为策略部署的监管和实际部署考虑因素。
提出的方法
- 创建一个简要的状态-行动示例数据集及来自分账簿的 24 小时价格预测。
- 用守则/边界条件指引 LLM 生成 Python 函数 decide_power(...)。
- 在 EV2Gym-Residential 中对生成的策略进行多日滚动仿真。
- 收集定量奖励和反例以指导迭代修复循环。
- 通过利润、对基线的保真度和安全约束来比较策略。
- 分析四种提示策略(模仿、推理、混合、运行时)的有效性。
实验结果
研究问题
- RQ1大型语言模型是否能够生成并迭代改进一个显式、可解释的住宅 V2G 控制策略,使其能够在动态条件下适应,同时遵循物理和用户约束?
- RQ2基于 LLM 的进化策略综合方法是否能在高保真 V2G 仿真器中产生透明、可审计的解决方案,其性能达到或超过基线启发式方法?
主要发现
| 策略 | 基线奖励 | 出现的奖励 | 相对基线 | API 成本 |
|---|---|---|---|---|
| 纯推理 | 8.865 | 6.210 | 70.1% | 低 |
| 纯模仿 | 8.865 | 6.790 | 76.6% | 低 |
| 混合迭代 | 2.660 | 3.150 | 118.0% | 中等 |
| 运行时 LLM | 8.865 | 16.843 | 190.0% | 高 |
- 混合策略在利润方面达到基线的 118%,且使用简明、易读的人类可读启发式。
- 混合迭代策略在 24h 价格预测的辅助下发现了前瞻性套利,较基线利润提高 18%。
- 纯推理在标定上存在困难,错过套利机会(亏损 29.9%)。
- 纯模仿与基线行为一致但创新性有限(潜在奖励的 76.6%)。
- 运行时 LLM 策略实现了最高相对性能(基线的 190%),但 API 成本较高。
- 进化出的策略保持可解释性,进化后的代码通常简洁(例如 15 行)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。