[論文レビュー] SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion
SLowRL は Low-Rank Adaptation (LoRA) とオンライン安全回復方針を組み合わせ、実機ロボット上でシミュレーション学習済み locomotion ポリシーの安全かつ効率的なファインチューニングを実現。ファインチューニング時間を46.5%削減し、安全違反をほぼゼロに近づける。
Sim-to-real transfer of locomotion policies often leads to performance degradation due to the inevitable sim-to-real gap. Naively fine-tuning these policies directly on hardware is problematic, as it poses risks of mechanical failure and suffers from high sample inefficiency. In this paper, we address the challenge of safely and efficiently fine-tuning reinforcement learning (RL) policies for dynamic locomotion tasks. Specifically, we focus on fine-tuning policies learned in simulation directly on hardware, while explicitly enforcing safety constraints. In doing so, we introduce SLowRL, a framework that combines Low-Rank Adaptation (LoRA) with training-time safety enforcement via a recovery policy. We evaluate our method both in simulation and on a real Unitree Go2 quadruped robot for jump and trot tasks. Experimental results show that our method achieves a $46.5\%$ reduction in fine-tuning time and near-zero safety violations compared to standard proximal policy optimization (PPO) baselines. Notably, we find that a rank-1 adaptation alone is sufficient to recover pre-trained performance in the real world, while maintaining stable and safe real-world fine-tuning. These results demonstrate the practicality of safe, efficient fine-tuning for dynamic real-world robotic applications.
研究の動機と目的
- 高忠実度のシミュレーション locomotion ポリシーを実機ハードウェアへ安全に適応し、リスクとサンプルコストを最小化する。
- 極端に低ランク(例:ランク1)更新が sim-to-real 適応に十分であるかを調査する。
- 実世界のポリシー値の整合性のためにはアクターとクリティックの共同適応が必要であることを示す。
- 回復安全方針を統合することで、ハードウェア故障をほとんど伴わずに収束を速くできることを示す。
提案手法
- シミュレーションから事前学習済みポリシーを凍結し、凍結ウェイトと並行して低ランクアダプタ(LoRA)を学習する。
- アクターとクリティックの選択された密結合層に LoRA アダプタを挿入し、ELU 活性化前に出力を合算する BAx 更新を生み出す。
- 安全フィルターによりメインポリシーを上書きできる状態で、ロボットを安全な名目状態へ戻すタスク非依存の回復ポリシーを訓練する。
- ランク1 LoRA(rho=1)を優先的な適応次元として採用し、A をランダムに初期化、B=0 で事前学習済み挙動から開始する。
- アクターとクリティックの両方を適応させる方が、アクターのみを適応させるより現実世界の動力学と整合することを実証する。
- 全層にわたる LoRA の適応が、ヘッドや一部層のみを適応させる場合よりも優れた性能を示すことを示す。

実験結果
リサーチクエスチョン
- RQ1極めて低ランク(ランク1)による LoRA 更新は、全面的なファインチューニングなしに足場の悪いシミュレーションと実世界の間のギャップを十分に埋めることができるか。
- RQ2アクターとクリティックの共同適応は、安定かつ効果的な実世界ポリシーの改良に必要か。
- RQ3学習済み回復安全方針を組み込むことで、標準的な PPO ベースラインと比較してより速く、安全に実機でのファインチューニングが可能になるか。
- RQ4シミュ-to-リアル転送性能を最大化するために LoRA をネットワークのどこに挿入すべきか。
- RQ5実世界適応中の安全性とサンプル効率の利点として、安全フィルターと回復方針の組み合わせはどの程度効果的か。
主な発見
- SLowRL は Full Fine-Tuning PPO ベースラインと比較して実世界のファインチューニング収束時間を46.5%削減する。
- SLowRL は trot および jump タスクの各シードでハードウェア故障(転倒/衝突)ゼロを維持し、FFT ベースラインとは異なる。
- Rank-1 LoRA 適応は実世界で事前学習済みの性能を回復・さらには改善するのに十分である。
- アクターとクリティックの双方を適用することが、実世界の動力学とポリシー値関数を再整合させるために必要であり、アクターのみの適用は収束しない。
- 全層にわたる LoRA の適応は最良の性能を示し、特徴の深い補正と強固な sim-to-real 転送を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。