QUICK REVIEW

[論文レビュー] TidyBot: Personalized Robot Assistance with Large Language Models

Jimmy Wu, Rika Antonova|arXiv (Cornell University)|May 9, 2023

Multimodal Machine Learning Applications被引用数 9

ひとこと要約

本論文は、オフ・ザ・シェルフのLLMを用いて少数のテキスト例から個別化された物体配置と操作ルールを学習し、未知の物体へ一般化することで、実世界の整理を高い精度で実現するモバイルロボット「TidyBot」を提案する。

ABSTRACT

For a robot to personalize physical assistance effectively, it must learn user preferences that can be generally reapplied to future scenarios. In this work, we investigate personalization of household cleanup with robots that can tidy up rooms by picking up objects and putting them away. A key challenge is determining the proper place to put each object, as people's preferences can vary greatly depending on personal taste or cultural background. For instance, one person may prefer storing shirts in the drawer, while another may prefer them on the shelf. We aim to build systems that can learn such preferences from just a handful of examples via prior interactions with a particular person. We show that robots can combine language-based planning and perception with the few-shot summarization capabilities of large language models (LLMs) to infer generalized user preferences that are broadly applicable to future interactions. This approach enables fast adaptation and achieves 91.2% accuracy on unseen objects in our benchmark dataset. We also demonstrate our approach on a real-world mobile manipulator called TidyBot, which successfully puts away 85.0% of objects in real-world test scenarios.

研究の動機と目的

ユーザーと文化によって容器の配置が異なる個別化された家庭内清掃を促進する動機付け。
ユーザーが提供する少数の配置をLLMsで要約して一般化ルールにする方法を提案する。
要約ルールをオープン語彙の知覚で地盤付けし、ロボットの行動を導く。
実世界のモバイルマニピュレーションシステムでアプローチをデモンストレーションし、一般化をベンチマークする。
個別化された容器選択を評価する公開ベンチマークデータセットを提供する。

提案手法

ユーザーが示す物体配置の例を、規則のコード様な要約を出力するLLMプロンプトへ変換する。
LLM生成の要約を用いて未知の物体に対する一般化された容器とカテゴリのマッピングを導出する。
一般化されたカテゴリをオープン語彙分類器（CLIP）に地盤付けして、新しいシーンでの物体認識を行う。
ロボットが物体を局所化し、LLM由来のカテゴリを用いてCLIPで分類し、個別化ルールを適用して物体を目的の容器へ移動させるロボットパイプラインを実装する。
テキストベースのベンチマークと、モバイルマニピュレータを用いた実世界のロボット実験の双方を評価する。

実験結果

リサーチクエスチョン

RQ1少数のユーザー提供配置をLLM要約を用いて未知の物体へ一般化できるか？
RQ2LLM由来の一般化ルールは、WordNet、埋め込み、要約なしなどのベースラインより個別化された物体配置タスクで優れているか？
RQ3ベンチマークのシナリオから実世界のロボットによる tidying へどの程度適用できるか？

主な発見

要約ベースの一般化は、ベンチマークで未知の物体に対して91.2%の精度を達成する（ベースラインと比較して）。
実世界の TidyBot は、テストシナリオで物体の85.0%を正しく整理する。
LLMの要約は、名詞カテゴリ（例: 明るい色の服）を抽出してCLIPベースの分類を導くことで、オープン語彙の知覚を可能にする。
ABテストと人間研究は、多くのソート基準で人間がLLM要約された嗜好をCLIPベースのベースラインより好むことを示している。
古いLLMと非要約ベースラインは、未知物体の一般化で特に低性能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。