QUICK REVIEW

[論文レビュー] Improving gearshift controllers for electric vehicles with reinforcement learning

Marc-Antoine Beaudoin, Benoît Boulet|arXiv (Cornell University)|Dec 1, 2021

Gear and Bearing Dynamics Analysis参考文献 46被引用数 14

ひとこと要約

本稿では、PILCOにインspiredされたアルゴリズムを用いたモデルベース強化学習手法を提案し、電気自動車の多段変速機のフィードフォワードおよびフィードバックパラメータを自動的にチューニングする。わずか4回のシフト試行で、追従誤差を最大80％まで低減するという顕著な性能向上を達成し、物理的テストを最小限に抑えつつ制御戦略の迅速な探索を可能にする。

ABSTRACT

During a multi-speed transmission development process, the final calibration of the gearshift controller parameters is usually performed on a physical test bench. Engineers typically treat the mapping from the controller parameters to the gearshift quality as a black-box, and use methods rooted in experimental design -- a purely statistical approach -- to infer the parameter combination that will maximize a chosen gearshift performance indicator. This approach unfortunately requires thousands of gearshift trials, ultimately discouraging the exploration of different control strategies. In this work, we calibrate the feedforward and feedback parameters of a gearshift controller using a model-based reinforcement learning algorithm adapted from Pilco. Experimental results show that the method optimizes the controller parameters with few gearshift trials. This approach can accelerate the exploration of gearshift control strategies, which is especially important for the emerging technology of multi-speed transmissions for electric vehicles.

研究の動機と目的

コントローラーのキャリブレーションに数千回のシフト試行を要する従来の実験計画（DOE）手法の非効率性を是正すること。
ドライブトレインのダイナミクスに関する事前知識を統合することで、ブラックボックス型の統計最適化の限界を克服すること。
多段変速電気自動車変速機開発における、多様な制御戦略を迅速に探索できる、高速でデータ効率の良い手法を開発すること。
少数の物理的試行を用いて、フィードフォワードおよびフィードバックコントローラーのパラメータを同時に自動チューニングすること。
学習済みコントローラーがトレーニングデータにないさまざまな運転条件下でも耐性を示すようにすること。

提案手法

モデルベース強化学習に適したPILCO（Probabilistic Inference for Learning COntrol）アルゴリズムを応用し、シフトコントローラーのパラメータ最適化を実行する。
確率的ダイナミクスモデルを用いてシステムの挙動を予測し、自動微分によりコントローラーのパラメータに関する期待コストの勾配を計算する。
連続的アクション空間を持つマルコフ意思決定過程としてシフト制御問題を定式化し、コントローラーの出力はモーターおよびクラッチ2へのトルク命令である。
全状態線形フィードバックコントローラーに加え、電気自動車のクラッチ間シフトにおけるフィードフォワード信号を実装する。
車両速度およびトルク命令の追従誤差に基づく性能コスト関数を最小化することでコントローラーを最適化する。
物理的試験ベンチ上で少数の実世界シフト試行を繰り返し実施し、モデルとポリシーをクローズドループで逐次更新することで、コントローラーのポリシーを改善する。

実験結果

リサーチクエスチョン

RQ1従来のDOE手法と比較して、モデルベース強化学習手法が、コントローラーキャリブレーションに必要な物理的シフト試行回数を著しく削減できるか。
RQ2学習済みコントローラーは、短いシフト時間や低速モーター回転数・低負荷といった未学習の運転条件下でも一般化可能か。
RQ3本手法は、追従性能の向上を図りながら、フィードフォワードおよびフィードバックパラメータを同時に効果的にチューニングできるか。
RQ4確率的ダイナミクスモデルの使用が、コントローラーのチューニングにおける学習効率および耐性をどの程度向上させるか。
RQ5本手法は、再訓練を一切行わずに、異なるコントローラー構造およびパrameter化に柔軟に適応可能か。

主な発見

提案手法は、わずか4回のシフト試行後、車両速度の追従誤差の無限大ノルムを54％、L2ノルムを80％低減した。
学習済みコントローラーはトレーニング条件に限らず、0.6秒の短いシフト時間や低速モーター回転数・低トルクといった未学習の条件に対しても、優れた性能を発揮した。
強化学習プロセスにより、フィードフォワードおよびフィードバックパラメータが正常に調整された：モーターのノーマルトルクが低減され、クラッチ2のフィードバックゲインが顕著に増加し、軌道追従性が向上した。
本手法は高い再現性を示し、学習済みポリシーを用いた10回の繰り返し試行において一貫した性能を発揮した。これは、性能向上が測定ノイズによるものではないことを裏付けた。
コントローラーのチューニングプロセスは計算的にも効率的であり、標準のラップトップで1回のポリシー反復が約100秒で実行された。
本手法は柔軟かつ拡張可能であり、自動微分により、最適化フレームワークを再設計せずに、異なるコントローラー構造およびパrameter化への容易な適応が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。