[논문 리뷰] Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners
KnowNo는 conformal prediction을 사용하여 LLM 기반 플래너의 불확실성을 보정하고 필요시 인간 도움을 요청하도록 하면서, 사용자가 지정한 작업 성공률을 보장하고 불필요한 개입을 줄입니다. 상용 LLM과 즉시 작동하며, 시뮬레이션 및 실제 로봇 작업에서 효율성 향상을 시연합니다.
Large language models (LLMs) exhibit a wide range of promising capabilities -- from step-by-step planning to commonsense reasoning -- that may provide utility for robots, but remain prone to confidently hallucinated predictions. In this work, we present KnowNo, which is a framework for measuring and aligning the uncertainty of LLM-based planners such that they know when they don't know and ask for help when needed. KnowNo builds on the theory of conformal prediction to provide statistical guarantees on task completion while minimizing human help in complex multi-step planning settings. Experiments across a variety of simulated and real robot setups that involve tasks with different modes of ambiguity (e.g., from spatial to numeric uncertainties, from human preferences to Winograd schemas) show that KnowNo performs favorably over modern baselines (which may involve ensembles or extensive prompt tuning) in terms of improving efficiency and autonomy, while providing formal assurances. KnowNo can be used with LLMs out of the box without model-finetuning, and suggests a promising lightweight approach to modeling uncertainty that can complement and scale with the growing capabilities of foundation models. Website: https://robot-help.github.io
연구 동기 및 목표
- 언어 기반 로봇 계획에서 보정된 불확실성의 필요성을 고취하여 환각과 안전하지 않은 행동을 피한다.
- LLM 플래너의 불확실성을 사용자 지정 성공 수준과 일치시키는 conformal-prediction 기반 프레임워크인 KnowNo를 제안한다.
- 보정된 신뢰도와 최소한의 인간 개입에 대한 이론적 보장을 제공한다.
- 다양한 모호한 시나리오에서 시뮬레이션과 하드웨어 전반의 실증 이점을 입증한다.
제안 방법
- 다음 단계 후보와 그들의 보정되지 않은 확신도를 생성하기 위해 LLM을 사용하여 계획을 다지선다형 Q&A(MCQA)로 구성한다.
- CP를 적용하여 사용자 정의 커버리지 1−ε를 보장하는 후보 집합의 하위 집합을 선택한다.
- CP 예측 집합이 단일형이 아닌 경우 인간 도움을 트리거하고, 그렇지 않으면 단일 계획을 실행한다.
- CP를 시퀀스 수준의 다단계 계획으로 확장하기 위해 시퀀스로 확장하고 테스트 시점에 인과적으로 재구성된 예측 집합을 사용한다.
- 보정에 대해 확률이 최소 1−δ일 때 작업 완료가 ≥1−ε이고 커버리지 제약하에 평균 집합 크기가 최소화된다는 보정 증명 보장을 제공합니다.
- PaLM-2L을 주요 LLM으로 하고 다양한 기준: 공간적, 숫자적, 속성 및 Winograd-스키마 모호성에서 시뮬레이션 및 하드웨어로 KnowNo를 평가하고 다양한 베이스라인과 비교한다.

실험 결과
연구 질문
- RQ1CP 기반 불확실성 추정이 로봇 공학에서 LLM 기반 계획자에 대해 보정된 작업 성공 보장을 제공할 수 있는가?
- RQ2KnowNo가 다양한 모호성 유형에서 사용자 지정 작업 성공률을 유지하면서 필요한 인간 개입을 줄이는가?
- RQ3시퀀스 수준(다단계) 보정이 연장된 계획 기간에 CP 보장을 어떻게 확장하는가?
- RQ4하드웨어와 시뮬레이션에서 KnowNo가 프롤롬 프롬프트 기반 및 앙상블 베이스라인 대비 어떻게 성능을 보이는가?
- RQ5KnowNo가 서로 다른 LLM 및 프롬프트 구성에 대해 견고한가?
주요 결과
| Table 1: 하드웨어 다단계 테이블탑 재배치 – 예측 집합 및 개입 (1−ε, 계획 성공, 작업 성공, 집합 크기, 도움-단계, 도움-실험) | ||||||
|---|---|---|---|---|---|---|
| KnowNo | 0.75 | 0.76 | 0.74 | 1.72 | 0.58 | 0.92 |
| Simple Set | 0.58 | 0.76 | 0.72 | 2.04 | 0.72 | 1.00 |
| No Help | - | - | - | 0.41 | - | 0 |
- KnowNo는 보정된 보장을 바탕으로 목표 작업 성공률 1−ε를 달성하는 한편, 기준선 대비 필요한 인간 도움을 자주 줄인다.
- 시뮬레이션에서 KnowNo는 Simple Set 및 Ensemble Set 대비 모호성 유형 전체에서 평균 예측 집합 크기와 인간 개입을 줄이며, 특정 설정에서 최대 24%까지 감소한다.
- 하드웨어 실험(다단계 탁상용 재배치)에서 KnowNo는 단계별 및 시도별 인간 도우미를 약 14% 감소시키고 평균 집합 크기를 줄인다.
- 모바일 조작 하드웨어 시나리오에서 KnowNo는 PaLM-2L 및 GPT-3.5 변형 전반에서 목표 성공을 유지하면서 도움과 예측 집합 크기를 줄인다.
- LLM의 확신이 불완전하더라도 CP 기반 불확실성 정렬은 여전히 효과적이며, CP는 LLM 보정과 무관하게 커버리지 보장을 제공한다.
- KnowNo는 LLM 미세조정 없이 작동하며 기초모형의 역량과 함께 확장된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.