[论文解读] Improving gearshift controllers for electric vehicles with reinforcement learning
本文提出一种基于模型的强化学习方法,采用受PILCO启发的算法,自动调节电动多档变速器换挡控制器的前馈与反馈参数。该方法仅通过四次换挡试验,即实现显著的性能提升——将跟踪误差降低高达80%,从而在极少的物理测试下快速探索多种控制策略。
During a multi-speed transmission development process, the final calibration of the gearshift controller parameters is usually performed on a physical test bench. Engineers typically treat the mapping from the controller parameters to the gearshift quality as a black-box, and use methods rooted in experimental design -- a purely statistical approach -- to infer the parameter combination that will maximize a chosen gearshift performance indicator. This approach unfortunately requires thousands of gearshift trials, ultimately discouraging the exploration of different control strategies. In this work, we calibrate the feedforward and feedback parameters of a gearshift controller using a model-based reinforcement learning algorithm adapted from Pilco. Experimental results show that the method optimizes the controller parameters with few gearshift trials. This approach can accelerate the exploration of gearshift control strategies, which is especially important for the emerging technology of multi-speed transmissions for electric vehicles.
研究动机与目标
- 解决传统实验设计(DOE)方法在控制器校准过程中需要数千次换挡试验的低效问题。
- 克服黑箱统计优化方法的局限性,通过在调优过程中整合传动系统动力学的先验知识。
- 开发一种快速、数据高效的控制策略探索方法,用于多档电动车辆变速器开发阶段。
- 利用少量物理试验,实现前馈与反馈控制器参数的自动、并行调优。
- 确保所学习控制器在训练数据范围之外的各种工况下仍具备鲁棒性。
提出的方法
- 将PILCO(概率推理用于学习控制)算法适配为基于模型的强化学习方法,以优化换挡控制器参数。
- 使用概率动力学模型预测系统行为,并通过自动微分计算期望代价相对于控制器参数的梯度。
- 将换挡控制问题建模为具有连续动作空间的马尔可夫决策过程,其中控制器输出为电机和离合器2的扭矩指令。
- 实现全状态线性反馈控制器,并结合前馈信号,用于电动车辆的双离合器换挡。
- 通过最小化基于车辆速度和扭矩指令跟踪误差的性能代价函数来优化控制器。
- 在物理试验台上通过少量真实换挡试验迭代优化控制器策略,以闭环方式更新模型与策略。
实验结果
研究问题
- RQ1与传统DOE方法相比,基于模型的强化学习方法是否能显著减少控制器校准所需的物理换挡试验次数?
- RQ2所学习的控制器是否能泛化到未见过的工况,例如更短的换挡持续时间或降低的电机转速与负载?
- RQ3该方法是否能有效同时调优前馈与反馈参数,同时提升跟踪性能?
- RQ4使用概率动力学模型在多大程度上提升了控制器调优的学习效率与鲁棒性?
- RQ5该方法是否能灵活适配不同的控制器架构与参数化形式,而无需从头开始重新训练?
主要发现
- 仅经过四次换挡试验后,所提方法将车辆速度跟踪误差的无穷范数降低了54%,L2范数降低了80%。
- 所学习的控制器不仅在训练工况下表现更优,也在此前未见的工况下表现良好,例如0.6秒的换挡持续时间以及降低的电机转速与扭矩。
- 强化学习过程成功调整了前馈与反馈参数:电机的额定扭矩降低,离合器2的反馈增益显著提高,从而改善了轨迹跟踪性能。
- 该方法表现出高度可重复性,10次重复试验中性能一致,证实性能提升并非由测量噪声导致。
- 控制器调优过程计算高效,每次策略迭代仅需约100秒,运行于标准笔记本电脑上。
- 该方法具有良好的灵活性与可扩展性,自动微分使得其可轻松适配不同控制器结构与参数化形式,而无需重新设计优化框架。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。