QUICK REVIEW

[논문 리뷰] Robot Behavior-Tree-Based Task Generation with Large Language Models

Yue Cao, C. S. George Lee|arXiv (Cornell University)|2023. 02. 24.

Topic Modeling인용 수 9

한 줄 요약

논문은 Phase-Step 프롬프트 설계를 제안하여 대형 언어 모델로부터 모듈식이고 교차 도메인인 로봇 행동 트리를 생성하고, 미리 정의된 원시 작업 없이 추상 작업 설명으로부터 전체 행동 트리를 자동으로 구성하게 하며, 지식 기반에서 자동 소스-task 선택을 포함한다.

ABSTRACT

Nowadays, the behavior tree is gaining popularity as a representation for robot tasks due to its modularity and reusability. Designing behavior-tree tasks manually is time-consuming for robot end-users, thus there is a need for investigating automatic behavior-tree-based task generation. Prior behavior-tree-based task generation approaches focus on fixed primitive tasks and lack generalizability to new task domains. To cope with this issue, we propose a novel behavior-tree-based task generation approach that utilizes state-of-the-art large language models. We propose a Phase-Step prompt design that enables a hierarchical-structured robot task generation and further integrate it with behavior-tree-embedding-based search to set up the appropriate prompt. In this way, we enable an automatic and cross-domain behavior-tree task generation. Our behavior-tree-based task generation approach does not require a set of pre-defined primitive tasks. End-users only need to describe an abstract desired task and our proposed approach can swiftly generate the corresponding behavior tree. A full-process case study is provided to demonstrate our proposed approach. An ablation study is conducted to evaluate the effectiveness of our Phase-Step prompts. Assessment on Phase-Step prompts and the limitation of large language models are presented and discussed.

연구 동기 및 목표

새로운 도메인에서 자동 생성을 가능하게 함으로써 최종 사용자의 로봇 행동 트리 설계 노력을 줄이는 것을 목표로 한다.
LLM 기반 태스크 생성을 순차적 태스크에서 계층적이며 행동 트리 표현으로 확장한다.
고정된 원시-task 라이브러리 없이 추상적 태스크 설명을 실행 가능한 행동 트리로 구체화하여 교차 도메인 태스크 생성을 가능하게 한다.
LLM에 프롬프트를 제공하기 위한 소스 태스크를 자동으로 선택하기 위해 행동 트리의 지식 베이스를 활용한다.
프롬프트 설계의 전 과정을 다룬 사례 연구와 ablation 연구를 통해 타당성을 입증한다.

제안 방법

Phase-Step 프롬프트를 도입하여 Sequence 및 Action 노드로 구성된 3층 행동 트리 조각(Phase 1, Phase 2, Phase 3)을 생성한다.
로봇 능력 동사 목록을 사용한 동사-접지(verb-grounding)와 선택적 프롬프트 확장을 통해 비원시 하위 태스크를 원시 행동으로 확장하는 행동 트리 구성 프로세스를 개발한다.
행동 트리 임베딩과 대상 태스크 임베딩을 사용한 유사도 기반 루틴을 도입하여 지식 베이스에서 적합한 소스 태스크를 선택하고 Phase-Step 프롬프트 생성을 안내한다.
비원시 하위 태스크를 하위 태스크 확장을 통해 처리하고 Fallback 및 Condition 노드를 사용하여 추가 사양을 관리하는 메커니즘을 제공한다.
프롬프트를 조정하고 원시 동작 제약(동사 목록 및 유사도 임계값)을 적용하여 트리 확장과 가지치기를 수행한다.
동사 접지 및 태스크 유사성을 위한 평가를 위해 GPT-3 text-davinci-003와 ChatGPT 두 LLM과 Uniform Sentence Encoder를 사용하여 평가한다.

실험 결과

연구 질문

RQ1대형 언어 모델이 사전 정의된 원시 태스크 라이브러리 없이 로봇 태스크 실행에 적합한 모듈식의 계층적 행동 트리를 생성할 수 있는가?
RQ2Phase-Step 프롬프트가 도메인 간 구조를 유지하는 3층 행동 트리 조각의 안정적인 생성을 가능하게 하는가?
RQ3지식 베이스에서 자동 소스 태스크 선택이 교차 도메인 행동 트리 생성 품질을 개선하는가?
RQ4프롬pt 변경 및 프롬pt 설계가 생성된 하위 태스크의 원시성 및 품질에 어떤 영향을 미치는가?
RQ5희귀하거나 도메인 특화 작업에 대해 LLM이 로봇 작업을 생성하는 데 Practical limit은 무엇인가?

주요 결과

Phase-Step 프롬pt는 트리 구조 출력 비율을 크게 증가시켜 비 Phase-Step 프롬pt에 비해 구조가 더 많아지고 다단계 트리도 얻을 수 있다.
지식 베이스에서 자동 소스 태스크 선택은 교차 도메인 태스크 생성을 가능하게 하여 자동차 바퀴 조립 소스 태스크로부터 데스크탑 조립이 가능하다.
GPT-3는 허용된 동사 세트 내에서 로봇 친화적이고 간결하며 해석 가능한 태스크 단계들을 생성하는 경향이 있었으나, ChatGPT는 때때로 추가 확장이 필요한 비원시 동사를 생성하였다.
동사-접지 기반의 하위 태스크 확장을 통해 비원시 하위 태스크를 원시 행동으로 전환할 수 있으며 유사도 임계값(0.5)을 통해 검토한다.
Phase-Step 프롬pt를 통해 3층 행동 트리 조각의 생성을 가능하게 하여 로봇 실행에 적합한 전체 트리로 확장될 수 있으며, 비 Phase-Step 프롬pt는 종종 순차적 출력으로 나타난다.
아블레이션은 Phase-Step 프롬pt가 구조 비율 R을 거의 0인 상태(non-Phase-Step)에서 프롬pt 변형에 따라 약 0.6~0.93 범위의 값으로 개선되었음을 보여주며 모듈성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.