[論文レビュー] Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL
この論文は、Real-Time Recurrent Reinforcement Learning (RTRRL) と生体にインスパイアされた LRC ニューラルモデルを用いたオンライン微調整により、自律走行の事前学習済みコントローラをリアルタイムで微調整することを実証し、CarRacing のシミュレーションとイベントカメラによる実世界の LineTracking で検証した。
Deploying pretrained policies in real-world applications presents substantial challenges that fundamentally limit the practical applicability of learning-based control systems. When autonomous systems encounter environmental changes in system dynamics, sensor drift, or task objectives, fixed policies rapidly degrade in performance. We show that employing Real-Time Recurrent Reinforcement Learning (RTRRL), a biologically plausible algorithm for online adaptation, can effectively fine-tune a pretrained policy to improve autonomous agents' performance on driving tasks. We further show that RTRRL synergizes with a recent biologically inspired recurrent network model, the Liquid-Resistance Liquid-Capacitance RNN. We demonstrate the effectiveness of this closed-loop approach in a simulated CarRacing environment and in a real-world line-following task with a RoboRacer car equipped with an event camera.
研究の動機と目的
- 動的な走行環境において事前学習ポリシーを劣化させる分布シフトに対処する。
- 完全な再学習を要せず、リアルタイムで政策を適応させるオンライン・ステップ単位の微調整パイプラインを開発する。
- 生物学的に妥当な RTRRL と LRC ベースのリカレントモデルを活用して安定したオンライン学習を実現する。
- シミュレーションとイベントカメラ観測を用いた実車1:10スケールのプラットフォームで効果を実証する。
提案手法
- オフラインのビヘイビアラル・クローンより畳み込みエンコーダとリカレントポリシーを事前学習する。
- RTRRL でオンライン微調整を行い、アクター・クリティック・RNN パラメータを毎時点で更新する。
- オンラインでのサンプル効率的な更新を可能にするため TD(lambda) とエリジビリティ・トレースを使用する。
- RTRL または RFLO によるオンラインの勾配計算を実装し、時間的誤差逆伝播法を避ける。
- LRC ベースのリカレント状態空間モデル(LrcSSM)を RNN バックボーンのドロップイン置換として対角接続で導入する。
- 単一環境での微調整時の過剰適合を抑制するためパラメータ変更ペナルティを適用する。

実験結果
リサーチクエスチョン
- RQ1RTRRL が分布シフト下で事前学習ポリシーの効果的なオンライン適応を可能にするか。
- RQ2LrcSSM を用いた生物学的にインスパイアされたリカレントモデルは、従来の RNN と比べてオンライン微調整の性能を向上させるか。
- RQ3オンラインでの RTRL/RFLO による逐次勾配伝播は埋め込みハードウェアでのリアルタイム制御に十分か。
- RQ4オフラインのビヘイビアラル・クローンとオンライン RTRRL を組み合わせると、シミュレーションと実世界のイベントカメラ走行の両方で堅牢なポリシーを生み出せるか。
- RQ51:10 スケールの RoboRacer プラットフォームでの実践的な利点と限界は何か。
主な発見
- RTRRL ベースのオンライン微調整は、分布シフト下で CarRacing における事前学習ポリシーをシードとモデルタイプを跨いで著しく改善する。
- LrcSSM ベースのポリシーは、他のモデルタイプと比較して微調整後に最も大きく、一貫した利得を示す。
- イベントカメラを用いた実世界の LineTracking では、微調整時に事前学習モデルの即時改善と、ラップごとの性能変動の低減を示す。
- LineTracking の前学習には LRUs が不振であり、実世界転送の悪さのため微調整から除外された。
- オフライン+オンライン学習パイプラインは、全再学習を要せず高頻度で埋め込みハードウェア上の適応を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。