[論文レビュー] Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners
KnowNo は conformal prediction を用いて LLM ベースのプランナーの不確実性をキャリブレーションし、必要なときに人の助けを要求できるようにしつつ、ユーザーが指定したタスク成功率を保証し不要な介入を削減します。オフ・ザ・シェルの LLM でそのまま動作し、シミュレーションと実ロボットのタスクの両方で効率の向上を示します。
Large language models (LLMs) exhibit a wide range of promising capabilities -- from step-by-step planning to commonsense reasoning -- that may provide utility for robots, but remain prone to confidently hallucinated predictions. In this work, we present KnowNo, which is a framework for measuring and aligning the uncertainty of LLM-based planners such that they know when they don't know and ask for help when needed. KnowNo builds on the theory of conformal prediction to provide statistical guarantees on task completion while minimizing human help in complex multi-step planning settings. Experiments across a variety of simulated and real robot setups that involve tasks with different modes of ambiguity (e.g., from spatial to numeric uncertainties, from human preferences to Winograd schemas) show that KnowNo performs favorably over modern baselines (which may involve ensembles or extensive prompt tuning) in terms of improving efficiency and autonomy, while providing formal assurances. KnowNo can be used with LLMs out of the box without model-finetuning, and suggests a promising lightweight approach to modeling uncertainty that can complement and scale with the growing capabilities of foundation models. Website: https://robot-help.github.io
研究の動機と目的
- Language-based robot planning におけるキャリブレーションされた不確実性の必要性を動機付けるために、幻覚や安全上の問題を避ける。
- KnowNo を提案する、ユーザー指定の成功レベルと一致させるための conformal-prediction ベースのフレームワーク。
- キャリブレーションされた信頼度と最小限の人間介入に関する理論的保証を提供する。
- シミュレーションとハードウェアの多様な曖昧なシナリオで経験的な利点を示す。
提案手法
- 計画を LLM を用いた多択式の Q&A (MCQA) として定式化し、候補となる次のステップとそれらの未キャリブレーション信頼度を生成する。
- conformal prediction (CP) を適用して、ユーザー定義のカバレッジ 1−ε を保証する候補のサブセットを選択する。
- CP の予測集合が非単一である場合に人間の支援をトリガーし、そうでなければ単一計画を実行する。
- テスト時にシーケンスにリフティングして因果的に再構成された予測集合を用いることで、マルチステップ(シーケンスレベル)計画へ CP を拡張する。
- キャリブレーション保証の証明:キャリブレーションの下で少なくとも確率 1−δ で、タスク完了は ≥1−ε であり、平均セットサイズはカバレッジ制約の下で最小化される。
- 主要 LLM として PaLM-2L を用い、さまざまなベースラインと比較し、空間的・数値的・属性的・Winograd-スキーマの曖昧さに対して、シミュレーションとハードウェアの両方で KnowNo を評価する。

実験結果
リサーチクエスチョン
- RQ1CP ベースの不確実性推定は、ロボット工学における LLM ベースのプランナーに対してキャリブレーションされたタスク成功保証を提供できるか?
- RQ2KnowNo は diverse な曖昧性タイプ全体で、ユーザーが指定したタスク成功率を維持しつつ人間の介入を減らせるか?
- RQ3シーケンスレベル(マルチステップ)キャリブレーションは拡張計画の長期的な見通しに CP の保証をどう拡張するか?
- RQ4ハードウェアとシミュレーションにおいて、プロンプトベースおよびアンサンブルベースラインと比較して KnowNo はどのような性能を示すか?
- RQ5KnowNo は異なる LLM やプロンプト設定に対して頑健か?
主な発見
| Table 1: Hardware Multi-Step Tabletop Rearrangement – Prediction Set and Intervention (1−ε, Plan Succ, Task Succ, Set Size, Help-Step, Help-Trial) | ||||||
|---|---|---|---|---|---|---|
| KnowNo | 0.75 | 0.76 | 0.74 | 1.72 | 0.58 | 0.92 |
| Simple Set | 0.58 | 0.76 | 0.72 | 2.04 | 0.72 | 1.00 |
| No Help | - | - | 0.41 | - | 0 | 0 |
- KnowNo はキャリブレーション済みの保証を持ってターゲットタスクの成功率 1−ε を達成し、ベースラインよりも頻繁に人間の支援を抑制する。
- シミュレーションでは、KnowNo は空間的・数値的・属性的・曖昧さタイプを跨いで、Simple Set および Ensemble Set に対して平均予測集合サイズと人間介入を削減し、特定の設定で最大 24% の削減を達成。
- ハードウェア実験(マルチステップ テーブルトップ再配置)では KnowNo がステップ毎および試行毎の人間ヘルパーを約 14%低減し、平均セットサイズを削減。
- モバイル操作ハードウェアのシナリオでは、PaLM-2L および GPT-3.5 変種に対して、目標成功を維持しつつ支援と予測セットを小さく抑える。
- LLM の信頼度が不完全でも CP ベースの不確実性整列は有効であり、CP は |LLM calibration| に依存せずカバレッジ保証を提供する。
- KnowNo は LLM のファインチューニングを行わず、基盤モデルの能力とともにスケールする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。