[논문 리뷰] SLowRL: Safe Low-Rank Adaptation Reinforcement Learning for Locomotion
tldr: SLowRL은 Low-Rank Adaptation (LoRA)과 온라인 안전 회복 정책을 결합하여 시뮬레이션에서 학습된 보행 정책을 실제 로봇에서 안전하고 효율적으로 미세 조정하며, 미세 조정 시간 46.5% 단축과 거의 제로에 근접한 안전 위반을 달성한다.
Sim-to-real transfer of locomotion policies often leads to performance degradation due to the inevitable sim-to-real gap. Naively fine-tuning these policies directly on hardware is problematic, as it poses risks of mechanical failure and suffers from high sample inefficiency. In this paper, we address the challenge of safely and efficiently fine-tuning reinforcement learning (RL) policies for dynamic locomotion tasks. Specifically, we focus on fine-tuning policies learned in simulation directly on hardware, while explicitly enforcing safety constraints. In doing so, we introduce SLowRL, a framework that combines Low-Rank Adaptation (LoRA) with training-time safety enforcement via a recovery policy. We evaluate our method both in simulation and on a real Unitree Go2 quadruped robot for jump and trot tasks. Experimental results show that our method achieves a $46.5\%$ reduction in fine-tuning time and near-zero safety violations compared to standard proximal policy optimization (PPO) baselines. Notably, we find that a rank-1 adaptation alone is sufficient to recover pre-trained performance in the real world, while maintaining stable and safe real-world fine-tuning. These results demonstrate the practicality of safe, efficient fine-tuning for dynamic real-world robotic applications.
연구 동기 및 목표
- 고충실도 시뮬레이션 보행 정책을 실제 하드웨어에 안전하게 적응시키고 위험 및 샘플 비용을 최소화하는 것이 목표다.
- 매우 낮은 랭크(예: rank-1) 업데이트가 효과적인 sim-to-real 적응에 충분한지 조사한다.
- 실제 세계 정책 가치 정렬을 위해 actor와 critic를 함께 적응시키는 필요성을 입증한다.
- 회복 안전 정책의 통합이 무시할 수 있을 만큼의 하드웨어 실패로 더 빠른 수렴을 가능하게 한다는 것을 보여준다.
제안 방법
- 시뮬레이션에서 사전 학습된 정책을 고정하고, 동결된 가중치와 병행하여 저랭크 어댑터(LoRA)를 학습한다.
- actor와 critic의 선택된 Dense 계층에 LoRA 어댑터를 주입하여 ELU 활성화 이전에 합산된 출력을 갖는 additive BAx 업데이트를 생성한다.
- 태스크에 구애받지 않는 회복 정책을 학습시켜 로봇을 안전한 기준 상태로 되돌리도록 하고, 주요 정책을 무력화할 수 있는 안전 필터에 의해 활성화된다.
- rank-1 LoRA (rho=1)을 선호하는 적응 차원으로 사용하고, A를 임의로 초기화하며 B=0으로 시작하여 사전 학습된 동작에서 시작한다.
- actor와 critic을 함께 적응시키면 실제 세계의 동역학과의 정합성이 더 좋아짐을 보여준다.
- 모든 계층에 걸쳐 어댑터를 적응시키는 것이 head 또는 부분 계층만 적응시키는 것보다 더 나은 성능을 제공함을 보인다.

실험 결과
연구 질문
- RQ1LoRA를 통한 극도로 낮은 랭크(rank-1) 업데이트가 전체 미세 조정 없이도 사족 보행의 시뮬레이터-실세계 격차를 충분히 메울 수 있는가?
- RQ2안정적이고 효과적인 실세계 정책 정제를 위해 actor와 critic의 공동 적응이 필요한가?
- RQ3학습된 회복 안전 정책의 integrating이 표준 PPO 베이스라인보다 더 빠르고 안전한 하드웨어 상의 미세 조정을 가능하게 하는가?
- RQ4시뮬레이터-실제로의 전이 성능을 극대화하기 위해 LoRA를 네트워크 어디에 삽입해야 하는가?
- RQ5실세계 적응 중 안전 필터와 회복 정책의 안전성 및 샘플 효율성 이점은 무엇인가?
주요 결과
- SLowRL은 Full Fine-Tuning PPO 베이스라인과 비교하여 실제 세계 미세 조정 수렴 시간을 46.5% 감소시켰다.
- SLowRL은 트로트와 점프 과제에서 FFT 베이스라인과 달리 시드 전반에 걸쳐 하드웨어 고장(낙하/충돌) 제로를 유지한다.
- Rank-1 LoRA 적응은 실제 세계에서 사전 학습된 성능을 회복하고 심지어 개선하는 데 충분하다.
- actor와 critic을 함께 적응시키는 것이 실제 세계 동역학과 가치 함수를 재정렬하는 데 필요하며, actor만의 적응은 수렴에 실패한다.
- 모든 계층에 걸쳐 LoRA를 적응시키는 것이 최상의 성능을 낳아 특징의 심층 보정과 강건한 시뮬레이터-실제 전이를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.