QUICK REVIEW

[논문 리뷰] TidyBot: Personalized Robot Assistance with Large Language Models

Jimmy Wu, Rika Antonova|arXiv (Cornell University)|2023. 05. 09.

Multimodal Machine Learning Applications인용 수 9

한 줄 요약

본 논문은 일상용 로봇 TidyBot을 소개하며, 몇 가지 텍스트 기반 예시를 사용해 개인화된 물체 배치 및 조작 규칙을 학습하고, 시판되는 LLM을 이용해 보지 않은 물체에 일반화하여 높은 정확도로 실세계 정리를 가능하게 한다.

ABSTRACT

For a robot to personalize physical assistance effectively, it must learn user preferences that can be generally reapplied to future scenarios. In this work, we investigate personalization of household cleanup with robots that can tidy up rooms by picking up objects and putting them away. A key challenge is determining the proper place to put each object, as people's preferences can vary greatly depending on personal taste or cultural background. For instance, one person may prefer storing shirts in the drawer, while another may prefer them on the shelf. We aim to build systems that can learn such preferences from just a handful of examples via prior interactions with a particular person. We show that robots can combine language-based planning and perception with the few-shot summarization capabilities of large language models (LLMs) to infer generalized user preferences that are broadly applicable to future interactions. This approach enables fast adaptation and achieves 91.2% accuracy on unseen objects in our benchmark dataset. We also demonstrate our approach on a real-world mobile manipulator called TidyBot, which successfully puts away 85.0% of objects in real-world test scenarios.

연구 동기 및 목표

사용자와 문화에 따라 수납 용기 배치가 달라지는 개인화된 가정 청소의 필요성을 제시한다.
몇 가지 사용자가 제공한 배치를 LLM을 사용해 일반화된 규칙으로 요약하는 방법을 제안한다.
요약된 규칙을 개방 어휘 인식에 기반해 로봇 작업을 안내하도록 고정하고 로봇의 행동을 안내한다.
실세계 모바일 조작 시스템에서 이 접근법을 시연하고 일반화 성능을 벤치마크한다.
개인화된 수납 선택을 평가하기 위한 공개 벤치마크 데이터셋을 제공한다.

제안 방법

객체 배치에 대한 사용자의 예를 LLM 프롬프트로 변환해 규칙의 코드 형태 요약을 출력한다.
LLM이 생성한 요약을 이용해 보지 않은 객체에 대한 일반화된 수납 및 범주 매핑을 도출한다.
일반화된 범주를 개방 어휘 분류기(CLIP)로 고정해 새로운 장면에서 물체 인식에 활용한다.
로봇이 객체를 위치화하고, LLM 유도 범주를 이용해 CLIP로 분류하며, 개인화된 규칙을 적용해 대상 수납상으로 물체를 이동시키는 로봇 파이프라인을 구현한다.
텍스트 기반 벤치마크와 모바일 매니퓰레이터를 활용한 실세계 로봇 실험에서 모두 평가한다.

실험 결과

연구 질문

RQ1사용자가 제공한 소수의 배치 세트로 LLM 요약을 이용해 보지 않은 객체에 일반화할 수 있는가?
RQ2LLM이 생성한 일반화 규칙이 WordNet, 임베딩, 또는 요약 없음과 같은 베이스라인보다 개인화된 물체 배치 작업에서 우수한가?
RQ3이 접근법이 벤치마크 시나리오에서 실세계 로봇 정리로 얼마나 잘 전이되는가?

주요 결과

요약 기반 일반화는 벤치마크에서 보지 못한 객체에 대해 91.2% 정확도를 달성한다(베이스라인 대비).
실세계 TidyBot은 테스트 시나리오에서 객체의 85.0%를 올바르게 정리한다.
LLM 요약은 명사 범주를 추출해(CLIP 기반 분류를 안내하는) 개방 어휘 지각을 가능하게 한다(예: 밝은 색상의 옷).
AB 테스트와 인간 연구에서 대부분의 분류 기준에서 사람들은 CLIP 기반 베이스라인보다 LLM 요약된 선호를 선호하는 것으로 나타났다.
구버전 LLM과 요약이 없는 베이스라인은 보지 못한 객체 일반화에서 현저히 더 나쁘게 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.