Skip to main content
QUICK REVIEW

[論文レビュー] Task-Specified Compliance Bounds for Humanoids via Lipschitz-Constrained Policies

Zewen He, Yoshihiko Nakamura|arXiv (Cornell University)|Mar 17, 2026
Robotic Locomotion and Control被引用数 0
ひとこと要約

論文は、タスク空間の剛性上限を状態依存かつ方向依存のポリシー雅可比行列制約へと写像する異方性リ Lipschitz 制約ポリシー(ALCP)を提案し、RL訓練中に強制することで、タスク指定の適合性と安定したヒューマノイド移動を達成する。

ABSTRACT

Reinforcement learning (RL) has demonstrated substantial potential for humanoid bipedal locomotion and the control of complex motions. To cope with oscillations and impacts induced by environmental interactions, compliant control is widely regarded as an effective remedy. However, the model-free nature of RL makes it difficult to impose task-specified and quantitatively verifiable compliance objectives, and classical model-based stiffness designs are not directly applicable. Lipschitz-Constrained Policies (LCP), which regularize the local sensitivity of a policy via gradient penalties, have recently been used to smooth humanoid motions. Nevertheless, existing LCP-based methods typically employ a single scalar Lipschitz budget and lack an explicit connection to physically meaningful compliance specifications in real-world systems. In this study, we propose an anisotropic Lipschitz-constrained policy (ALCP) that maps a task-space stiffness upper bound to a state-dependent Lipschitz-style constraint on the policy Jacobian. The resulting constraint is enforced during RL training via a hinge-squared spectral-norm penalty, preserving physical interpretability while enabling direction-dependent compliance. Experiments on humanoid robots show that ALCP improves locomotion stability and impact robustness, while reducing oscillations and energy usage.

研究の動機と目的

  • ヒューマノイドの強化学習における影響的な罰則を超えた適合制御を動機づける。
  • 事前に規定されたタスク空間の剛性上限を、ポリシー雅可比行列に対する状態依存の異方性リ Lipschitz風制約へ写像する。
  • RLポリシーが誘発する有効な関節剛性を物理的に解釈可能な枠組みで観察・調整できるようにする。
  • ALCPがシミュレーションおよび実機実験で tunable な適合性と安定性をもたらすことを実証する。

提案手法

  • ポリシー雅可比行列に対して予算行列K_LCPを用いて異方性リ Lipschitz 制約を定式化する。
  • ポリシー誘導の等価関節剛性K_eq(o)を定義し、J_pi(o)との関係を導出する。
  • タスク空間の剛性上限K_x^maxを、運動学的関係と剛性-適合性フレームワークを通じて関節空間の予算K_q^maxへ写像する。
  • RL訓練中の異方性LCPをソフト制約として課すヒンジ二乗スペクトルノルムペナルティを導入する。
  • ALCP訓練目的関数L_total = L_RL + lambda_aniso * R_anisoを導出し、R_anisoは剛性制約の違反をペナルティ化する。
  • 訓練と評価中の異なる接触フェーズを扱うため有限状態機械を使用する。

実験結果

リサーチクエスチョン

  • RQ1タスク空間の剛性上限をRL訓練内でどのように課すことで、解釈可能で検証可能な適合性を得られるか。
  • RQ2スカラーLCPよりも、方向依存性のある異方性リ Lipschitz予算がヒューマノイドポリシーにおいてより柔軟で物理的に意味のある制御を提供できるか。
  • RQ3シミュレーションおよび実機ロボットにALCPを適用した場合の安定性・適合性・エネルギーのトレードオフはどうなるか。
  • RQ4ALCPは歩行や操作中のCoMおよび四肢相互作用において、制御可能でタスク指定の適合性を提供するか。

主な発見

  • ALCPはタスク空間の剛性制約を異方性ポリシー雅可берите行列予算へ翻訳することで、解釈性を向上させ、タスク指定の適合性を実現する。
  • スカラーLCPと比較して、ALCPは方向依存的な制御を提供し、揺れを抑えつつCoMおよび手の適合性を調整可能で、バランスを維持できる。
  • シミュレーションでは、ALCPが踏み出し・立位タスク下で方向性二次形式予算を制限し、高周波活動を抑制し、制御されたエネルギー/努力のトレードオフを可能にする。
  • ヒューマノイドプラットフォーム上のハードウェア実験では、タスク剛性制約から導かれたSILCベースのポリシー使用時に外力荷重下で手の揺れが低減し、定着が速くなる。
  • 歩行シナリオ全体で、ALCPは安定性を保ちつつポリシー感度を有界に保ち、適合的で頑健な移動を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。