Skip to main content
QUICK REVIEW

[논문 리뷰] RoCo: Dialectic Multi-Robot Collaboration with Large Language Models

Zhao Mandi, Shreeya Jain|arXiv (Cornell University)|2023. 07. 10.
Natural Language Processing Techniques인용 수 11
한 줄 요약

RoCo는 다이얼로그식 LLM 기반 프레임워크를 도입해 다중 로봇 팀의 조정 및 운동 계획을 수행하며, 새로운 RoCoBench 벤치마크에서 인간-루프 및 제로샷 적응 기능으로 평가됩니다.

ABSTRACT

We propose a novel approach to multi-robot collaboration that harnesses the power of pre-trained large language models (LLMs) for both high-level communication and low-level path planning. Robots are equipped with LLMs to discuss and collectively reason task strategies. They then generate sub-task plans and task space waypoint paths, which are used by a multi-arm motion planner to accelerate trajectory planning. We also provide feedback from the environment, such as collision checking, and prompt the LLM agents to improve their plan and waypoints in-context. For evaluation, we introduce RoCoBench, a 6-task benchmark covering a wide range of multi-robot collaboration scenarios, accompanied by a text-only dataset for agent representation and reasoning. We experimentally demonstrate the effectiveness of our approach -- it achieves high success rates across all tasks in RoCoBench and adapts to variations in task semantics. Our dialog setup offers high interpretability and flexibility -- in real world experiments, we show RoCo easily incorporates human-in-the-loop, where a user can communicate and collaborate with a robot agent to complete tasks together. See project website https://project-roco.github.io for videos and code.

연구 동기 및 목표

  • 작업 특화 학습 없이 제로샷으로 유연한 다중 로봇 협업을 동기 부여하고 가능하게 한다.
  • 고수준 대화 기반 조정과 저수준 모션 플랜을 위해 LLM을 활용한다.
  • 실행 전에 계획을 검증하고 맥락 내 계획을 개선하기 위해 환경 피드백을 제공한다.
  • 다양한 작업 의미론과 인간-in-the-loop 협력에 대한 적응성을 보여준다.
  • 다중 로봇 조작 과제를 체계적으로 평가하기 위해 RoCoBench를 도입한다.

제안 방법

  • 세 가지 구성요소로 이루어진 RoCo 프레임워크: 1) 작업 추론 및 조정을 위한 LLM 기반 다중 에이전트 다이얼로그; 2) 환경 피드백과 검증을 포함한 LLM 생성 하위 작업 계획; 3) 중앙 집중식 RRT 기반 플래너를 사용한 LLM 정보 기반 관절 공간 모션 플래닝.
  • 대화 프롬프트에는 Task Context, Round History, Agent Capability, Communication Instructions, Current Observation, Plan Feedback가 포함되어 구조화된 LLM 추론을 유도한다.
  • 하위 작업 계획에는 선택적 3D 작업 공간 경유 경로가 포함될 수 있으며, 실행 전에 Text Parsing, Task Constraints, IK feasibility, Collision, Waypoint validity의 일련의 검증을 거친다.
  • 모션 플래닝은 검증된 하위 작업을 관절 공간 목표로 변환하고 모든 로봇 팔에 걸친 경로를 생성하기 위해 RRT 기반 플래너를 사용한다.
  • 토이 예제를 통해 LLM의 3D 공간 추론 능력을 시연하고 LLM 생성 경유지가 사용될 때 플래너 샘플 복잡도가 감소함을 보인다.
  • RoCoBench, 6-task 탁상 조작 벤치마크와 에이전트 추론 평가를 위한 RoCoBench-Text를 제공한다.
Figure 1: We propose RoCo, a unified approach for multi-robot collaboration that leverages LLMs for both high-level task coordination and low-level motion planning. We demonstrate its utility on RoCoBench, a benchmark we introduce that includes a diverse set of challenges in collaboration task scena
Figure 1: We propose RoCo, a unified approach for multi-robot collaboration that leverages LLMs for both high-level task coordination and low-level motion planning. We demonstrate its utility on RoCoBench, a benchmark we introduce that includes a diverse set of challenges in collaboration task scena

실험 결과

연구 질문

  • RQ1대화 기반의 제로샷 LLM 프레임워크가 작업 특화 학습 없이 다양한 조작 작업에 대해 다수의 로봇 팔을 조정할 수 있는가?
  • RQ2환경 피드백과 맥락 내 프롬프트의 도입이 다중 로봇 설정에서 하위 작업 계획 및 계획 효율성을 개선하는가?
  • RQ3LLM 생성 3D 경유지는 모션 플래닝 샘플 복잡성을 줄이고 고작의 작업 영역 중첩이 있는 작업에서 계획 성공률을 높이는가?
  • RQ4작업 의미론의 변화와 인간-in-the-loop 협력에 LLM 기반 조정 전략이 얼마나 잘 적응하는가?
  • RQ5LLMs와의 다중 로봇 협업 평가를 위한 벤치마크로서 RoCoBench의 가능성과 신뢰성은 무엇인가?

주요 결과

  • RoCo는 RoCoBench 과제 전반에서 높은 작업 성공률을 달성하고 작업 의미론의 변화에 적응한다.
  • 대화 기반 RoCo는 여러 과제에서 oracle-LMM 플래너와 일치하거나 근접하여 강력한 제로샷 적응을 강조한다.
  • LLM 제안 3D 경유지는 충돌 위험이 높은 배치 작업의 다팔 모션 플래닝을 가속한다.
  • RoCo는 물체 초기화, 작업 목표 변경, 다양한 로봇 능력에 대한 현장 테스트에서 견고함을 보여준다.
  • RoCoBench는 작업 분해, 관찰 공유, 작업 영역 중첩에 대한 체계적 평가를 제공한다.
Figure 2: RoCo consists of three main components: 1) Multi-agent dialog via LLMs : each robot is equipped with an LLM that ‘talks’ on its behalf, enabling a discussion of task strategy. 2) LLM-Generated Sub-task Plan : the dialog ends with a proposal of sub-task plan, including optionally a path of
Figure 2: RoCo consists of three main components: 1) Multi-agent dialog via LLMs : each robot is equipped with an LLM that ‘talks’ on its behalf, enabling a discussion of task strategy. 2) LLM-Generated Sub-task Plan : the dialog ends with a proposal of sub-task plan, including optionally a path of

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.