Skip to main content
QUICK REVIEW

[논문 리뷰] Integrated Exploration and Sequential Manipulation on Scene Graph with LLM-based Situated Replanning

Heqing Yang, Ziyuan Jiao|arXiv (Cornell University)|2026. 02. 04.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

EPoG는 그래프 기반 글로벌 플래너와 LLM 기반의 현지 재계획자를 결합하여 장기 목표 작업을 완료하기 위해 관측 및 LLM 예측으로 신념 그래프를 업데이트하며, 씬 그래프에서 탐색과 순차적 조작을 통합한다.

ABSTRACT

In partially known environments, robots must combine exploration to gather information with task planning for efficient execution. To address this challenge, we propose EPoG, an Exploration-based sequential manipulation Planning framework on Scene Graphs. EPoG integrates a graph-based global planner with a Large Language Model (LLM)-based situated local planner, continuously updating a belief graph using observations and LLM predictions to represent known and unknown objects. Action sequences are generated by computing graph edit operations between the goal and belief graphs, ordered by temporal dependencies and movement costs. This approach seamlessly combines exploration and sequential manipulation planning. In ablation studies across 46 realistic household scenes and 5 long-horizon daily object transportation tasks, EPoG achieved a success rate of 91.3%, reducing travel distance by 36.1% on average. Furthermore, a physical mobile manipulator successfully executed complex tasks in unknown and dynamic environments, demonstrating EPoG's potential for real-world applications.

연구 동기 및 목표

  • 부분 관찰 가능성 하에서 탐색과 조작을 씬 그래프 표현으로 통합하여 계획 문제를 해결한다.
  • 탐색에 정보를 제공하고 미지의 물체 배치를 예측하며 예외에 대한 현지 재계획을 제공하기 위해 LLM을 활용한다.
  • 시계적 제약을 가진 그래프 편집 및 동작 순차화를 최적화하여 전체 실행 비용을 최소화한다.

제안 방법

  • 이중 수준 계획: 글로벌 플래너가 신념 그래프에서 GED(graph edit distance)와 위상 정렬을 통해 후보 동작 시퀀스를 생성한다.
  • LLM 정보 기반 EstimateBeliefGraph는 작업 관련 객체의 가능한 위치를 예측하여 누락된 노드를 채운다.
  • GraphBasedPlanner는 신념 그래프와 목표 그래프 간의 GED를 사용하고 제한된 위상 정렬로 최소 비용 시퀀스를 계산한다.
  • 로컬 LLM 기반 플래너가 현지 상황에 맞는 실행 시퀀스로 런타임 예외를 처리한다(LLMPlanner).
  • 관측 후 신념 그래프의 업데이트가 발생하여 탐색과 조작을 순환적으로 교차시키는 루프를 형성한다.

실험 결과

연구 질문

  • RQ1부분 관찰 가능성 하에서 그래프 기반 씬 표현에 탐색과 순차적 조작을 어떻게 효과적으로 통합할 수 있는가?
  • RQ2LLM이 탐색 효율을 향상시키고 장기 조작 작업에 대해 강건한 현지 재계획을 제공할 수 있는가?
  • RQ3성공률과 실행 비용 측면에서 순수 LLM 기반 계획, 탐색 우선 계획, 통합 EPoG 계획 간의 트레이드오프는 무엇인가?
  • RQ4작업 실행 중 모션 플래닝 예외(예: 차단, 접근 불가, 충돌, 불안정성)를 시스템이 어떻게 처리하는가?

주요 결과

  • EPoG는 다섯 가지 장기 목표 물체 운반 작업에서 46개 가정 환경 씬에 대해 91.3%의 성공률을 달성했다.
  • EPoG는 Exploration+PoG 기초값에 비해 탐색된 노드를 약 40.0%, 이동 거리를 약 36.2% 감소시켰다.
  • 대형 씬 그래프의 추론 및 공간/시간 바인딩 한계로 인해 순수 LLM 플래너는 장기 작업에서 성능이 떨어진다.
  • 통합 프레임워크는 미지의 물체 상태와 동적인 환경에 대해 강인함을 보이며, 실제 모바일 매니퓰레이터를 사용한 검증으로 실용적 적용 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.