QUICK REVIEW

[논문 리뷰] SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning

Krishan Rana, Jesse Haviland|arXiv (Cornell University)|2023. 07. 12.

Multimodal Machine Learning Applications인용 수 29

한 줄 요약

SayPlan은 대규모 3D 씬 그래프에서 의미적 서브그래프 검색으로 LLM 기반 로봇 작업 계획의 근거화를 수행하고, 네비게이션용 경로 계획기와 씬 그래프 시뮬레이터와의 반복 재계획을 결합하여 다층 환경에서 실행 가능한 계획을 보장한다.

ABSTRACT

Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a 'semantic search' for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an 'iterative replanning' pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors and 36 rooms with 140 assets and objects and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute. We provide real robot video demonstrations on our project page https://sayplan.github.io.

연구 동기 및 목표

대규모의 다실/다층 환경에서 긴 기간의 LLM 계획을 근거화하는 문제에 대응한다.
작업 관련 서브그래프에 대한 의미론적 검색을 가능하게 하기 위해 계층화된 3D Scene Graphs (3DSGs)를 활용한다.
경로 계획을 고전적 계획기로 위임하여 LLM의 계획 범위를 축소한다.
씬 그래프 시뮬레이터와의 반복 재계획 루프를 도입하여 계획의 실행 가능성을 보장한다.

제안 방법

환경을 계층화된 3D Scene Graphs (3DSGs)로 표현하고 LLM 입력을 위해 JSON으로 직렬화한다.
3DSG를 고수준 뷰로 축소하고 LLM 주도 확장/축소 연산을 통해 의미론적 검색을 수행하여 작업 관련 서브그래프 G′를 식별한다.
고전적 경로 계획기(예: Dijkstra)를 사용해 고수준 경유지를 연결하고 LLM의 탐색 부담을 단축한다.
실행 가능성이 달성될 때까지 촉진되지 않는 행동과 술어를 수정하기 위해 씬 그래프 시뮬레이터의 피드백을 사용하여 계획을 반복적으로 정제한다.

실험 결과

연구 질문

RQ1주어진 지시에 관련된 서브그래프를 식별하기 위해 LLM이 대규모 3DSG에서 효과적으로 검색하고 추론할 수 있는 방법은?
RQ2고전적 경로 계획기와 반복적인 시뮬레이터 피드백을 통합하면 다층 환경에서 모바일 매니퓰레이터를 위한 실행 가능한 계획을 도출할 수 있는가?
RQ3의미론적 그래프 축소가 LLM 토큰 효율성과 계획 확장성에 미치는 영향은 무엇인가?
RQ4대규모 환경에서 LLM이 생성한 계획의 실패 모드는 무엇이며, 반복 재계획이 이를 어떻게 완화할 수 있는가?

주요 결과

SayPlan 파이프라인은 최대 3층, 36실의 환경에서 확장 가능하고 근거가 있는 작업 계획을 가능하게 한다.
축소된 3DSG에 대한 의미론적 검색은 대형 환경에서 토큰 로드를 최대 약 82%까지 감소시켜 LLM 파싱을 가능하게 한다.
실행 불가능한 행동을 수정하고 환경 술어를 준수함으로써 반복 재계획은 거의 실행 가능한 계획을 달성한다.
SayPlan은 모바일 매니퓰레이터를 사용한 실 로봇 시演에서 높은 실행 가능성과 타당성을 보여준다.
베이스라인과 비교할 때, SayPlan은 서브그래프 검색, 경로 계획, 피드백 루프의 결합을 통해 환각 및 탐색/조작 오류를 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.