[논문 리뷰] REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction
REFLECT는 실패 설명 및 수정 계획을 질의하기 위해 다중센서 로봇 요약을 계층적으로 활용하여 LLM을 활용하였고, 시뮬레이션과 실제 데이터를 모두 포함한 RoboFail에서 평가되었습니다.
The ability to detect and analyze failed executions automatically is crucial for an explainable and robust robotic system. Recently, Large Language Models (LLMs) have demonstrated strong reasoning abilities on textual inputs. To leverage the power of LLMs for robot failure explanation, we introduce REFLECT, a framework which queries LLM for failure reasoning based on a hierarchical summary of robot past experiences generated from multisensory observations. The failure explanation can further guide a language-based planner to correct the failure and complete the task. To systematically evaluate the framework, we create the RoboFail dataset with a variety of tasks and failure scenarios. We demonstrate that the LLM-based framework is able to generate informative failure explanations that assist successful correction planning.
연구 동기 및 목표
- 과거 실패를 자동으로 되돌아보아 강건하고 설명 가능한 로봇 공학을 촉진한다.
- 로봇 경험의 다감각적이고 계층적인 요약을 개발하여 실패 추론에 활용한다.
- 대형 언어 모델(LLM)을 활용하여 자연어로 된 실패 설명과 교정 계획을 생성한다.
- 평가를 위한 로봇 실패 시연 데이터셋인 RoboFail을 생성하고 활용한다.
제안 방법
- 다감각 관찰(RGB-D, 오디오, 상태)로부터 세 수준의 계층적 로봇 요약(감각 입력, 이벤트 기반, 하위목표 기반)을 구성한다.
- 감각 데이터를 작업 정보가 반영된 씬 그래프와 오디오 캡션으로 변환하여 정보성 있는 요약을 만든다.
- LLM에 점진적으로 질의하여 우선 하위목표 성공 여부를 탐지하고, 요약에서 관련 이력을 사용해 실패 설명을 생성한다.
- LLM에게 교정 계획을 생성하도록 요청하고, 생성된 행동을 임베딩 기반 매칭으로 실행 가능한 환경 행동에 매핑한다.

실험 결과
연구 질문
- RQ1계층적이고 다감각적인 요약이 LLM을 통해 정확한 실패 위치 확인과 설명을 가능하게 할 수 있는가?
- RQ2진행형 실패 설명이 비진행식 질의에 비해 위치 확인 및 설명 품질을 향상시키는가?
- RQ3LLM이 생성한 교정 계획이 시뮬레이션 및 실제 로봇 작업에서 실패를 효과적으로 수정할 수 있는가?
- RQ4오디오 모듈러리의 포함이 설명 및 위치 확인 성능에 미치는 영향은 무엇인가?
- RQ5설명 기반 캡션 또는 설명 없는 기준과 비교해 REFLECT의 실패 처리 성능은 어떠한가?
주요 결과
| 방법 | 실행 설명 | 실행 위치 확인 | 실행 교정 계획 | 계획 설명 | 계획 위치 확인 | 계획 교정 계획 |
|---|---|---|---|---|---|---|
| w/o progressive | 46.5 | 62.8 | 60.5 | 61.4 | 70.2 | 64.9 |
| Subgoal only | 76.7 | 74.4 | 51.2 | 71.9 | 73.7 | 75.4 |
| LLM summary | 55.8 | 67.4 | 65.1 | 57.9 | 54.4 | 66.7 |
| w/o explanation | - | - | 41.9 | - | - | 56.1 |
| REFLECT | 88.4 | 96.0 | 79.1 | 84.2 | 80.7 | 80.7 |
- REFLECT는 시뮬레이션에서 설명, 위치 확인, 교정 계획에서 최고 점수를 달성한다.
- 시뮬레이션에서 실행 실패의 경우 설명 88.4%, 위치 확인 96.0%, 교정 계획 성공 79.1%; 계획 실패의 경우 84.2%, 80.7%, 80.7%.
- 현실 세계 실험에서 REFLECT는 실행 실패에 대해 설명 68.8%, 위치 확인 93.8%로 베이스라인을 능가하고, 계획 실패에 대해 설명 78.6%, 위치 확인 78.6%를 보인다.
- 고찰로 진행형 실패 설명이 비진행형 기준보다 성능을 향상시키며, 오디오가 시각 정보만으로는 접근할 수 없는 실패를 설명하는 데 도움을 준다.
- BLIP2 자막은 실패 설명에 대해 성능이 저조하고, 제로샷의 작업 관련 요약은 필요한 객체-상태 및 공간 관계 정보를 포착한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.