Skip to main content
QUICK REVIEW

[論文レビュー] RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots

Humphrey Munn, Brendan Tidd|arXiv (Cornell University)|Feb 2, 2026
Robotic Locomotion and Control被引用数 0
ひとこと要約

RAPTは50 Hzの humanoid 制御向けの軽量な展開時モニターで、アウトオブディストリビューション(OOD)実行を検出し、シム→リアル転送の解釈可能な事後故障診断を提供します。

ABSTRACT

Deploying learned control policies on humanoid robots is challenging: policies that appear robust in simulation can execute confidently in out-of-distribution (OOD) states after Sim-to-Real transfer, leading to silent failures that risk hardware damage. Although anomaly detection can mitigate these failures, prior methods are often incompatible with high-rate control, poorly calibrated at the extremely low false-positive rates required for practical deployment, or operate as black boxes that provide a binary stop signal without explaining why the robot drifted from nominal behavior. We present RAPT, a lightweight, self-supervised deployment-time monitor for 50Hz humanoid control. RAPT learns a probabilistic spatio-temporal manifold of nominal execution from simulation and evaluates execution-time predictive deviation as a calibrated, per-dimension signal. This yields (i) reliable online OOD detection under strict false-positive constraints and (ii) a continuous, interpretable measure of Sim-to-Real mismatch that can be tracked over time to quantify how far deployment has drifted from training. Beyond detection, we introduce an automated post-hoc root-cause analysis pipeline that combines gradient-based temporal saliency derived from RAPT's reconstruction objective with LLM-based reasoning conditioned on saliency and joint kinematics to produce semantic failure diagnoses in a zero-shot setting. We evaluate RAPT on a Unitree G1 humanoid across four complex tasks in simulation and on physical hardware. In large-scale simulation, RAPT improves True Positive Rate (TPR) by 37% over the strongest baseline at a fixed episode-level false positive rate of 0.5%. On real-world deployments, RAPT achieves a 12.5% TPR improvement and provides actionable interpretability, reaching 75% root-cause classification accuracy across 16 real-world failures using only proprioceptive data.

研究の動機と目的

  • 学習ポリシーをヒューマノイドに信頼性高く展開することを動機づけ、シム→リアル転送後の沈黙する高信頼度のOOD失敗に対処する。
  • 50 Hzで動作する、各次元の較正された異常信号を備えた軽量なオンライン検出器を開発する。
  • 勾配ベースのサリエンシーとLLM条件付き意味分類器を通じて解釈可能な故障診断を提供する。
  • proprioceptiveデータと時折の視覚的手掛かりを用いてSim-to-Realミスマッチを診断するための事後的原因解析を可能にする。)

提案手法

  • 名義上のシミュレーションデータ上で確率的な再構成ベースの検出器(RAPT)を訓練し、有効な humanoid 行動の時空間マニフォールドをモデル化する。
  • 残差エンコード器と確率的デコーダを用いたGRUベースの潜在ブリッジを使用して、各次元のNLL(不確実性を考慮した)再構成スコアを生成する。
  • Sim-to-Real校正フェーズで異常閾値を較正し、次元別ゲートとグローバルゲートを境界ボックス検出器と組み合わせる。
  • 約50 Hzでオンライン検出を実施する。安定した安全性のために次元別最大値、グローバル平均、レンジ検証の3ゲート体系を用いる。
  • 時間を通じて再構成NLLを通じたバックプロパゲーション・インテグレーテッド・グラデイントで時間・センサ間の故障を説明する時系列サリエンシーを計算する。
  • 多模態のLLMを用いて、構造化されたサリエンシーと運動学データをゼロショットで意味的な根本原因診断へ翻訳する。
  • 安全応答(例: 安全停止、制御された転倒)を、自治体制御者の変更ではなく、オペレーター定義の方針に沿って提供する。

実験結果

リサーチクエスチョン

  • RQ1RAPTは、 simulated と real-world のヒューマノイドタスクにおけるOODイベント検出で最先端のベースラインを上回るか?
  • RQ2Sim-to-Realギャップ下で、偽陽性を低く保ちながらシミュレーションから実機へ一般化できるか?
  • RQ3勾配ベースのサリエンシーとLLMベースの推論が、実運用での故障根本原因診断にどれほど有効か?
  • RQ4各アーキテクチャ要素(時系列再発、確率的デコード、較正、サリエンシー、多模態診断)が検出性能に与える寄与はどれか?

主な発見

MethodLatencyAvg AUROCThrowingVelocityMimic (Dance)Mimic (Gangnam)Model OnlyHybrid
Isolation Forest4.32 ms0.690.24 ±0.040.34 ±0.030.42 ±0.010.38 ±0.000.180.34
PatchAD11.45 ms0.730.14 ±0.010.16 ±0.030.17 ±0.040.16 ±0.030.180.16
Deep SVDD0.45 ms0.670.29 ±0.030.31 ±0.100.41 ±0.010.37 ±0.010.140.34
LSTM-VAE1.77 ms0.770.30 ±0.020.36 ±0.020.44 ±0.010.42 ±0.010.320.38
Ours (RAPT)1.63 ms0.920.72 ±0.050.74 ∗ ±0.020.67 ±0.080.75 ±0.020.750.72
Ours (RAPT) Hybrid1.63 ms0.920.72 ±0.050.74 ∗ ±0.020.67 ±0.080.75 ±0.020.750.72
  • シミュレーションでは、RAPTは最高のSafety Score(TPR @ 0.5% FPR)とAUROCをタスク全体で達成し、待機遅延は非常に低く(1.63 ms)。
  • RAPTは同じ固定FPRで最も強力なベースライン(LSTM-VAE)に対して絶対AUROCを+0.34向上させる。
  • 実機では、Hybrid RAPT(RAPTとRange検出器の組み合わせ)は24件中18件の異常ランを検出(75% RCAリコール)し、ベースラインより高いリコールを示す。
  • RAPTの固有覚的サリエンシー診断は、視覚的フレームを加えるとトップ1およびトップ3の根本原因分類精度を向上させる。
  • 診断パイプラインは、PDゲインなどの沈黙したSim-to-Realのずれを特定し、単純なレンジ検証を超えた展開検証を支援する。
  • モデルは、サリエンシーと運動学に conditioned されたLLM によるゼロショット意味的故障分類をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。