QUICK REVIEW

[論文レビュー] Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning

Georgia Chalvatzaki, Ali Younes|arXiv (Cornell University)|Jan 1, 2023

Topic Modeling被引用数 1

ひとこと要約

本稿では、環境をシーングラフとして表現し、それを自然言語のプロンプトに線形化することで、GPT-2をグランド付き言語モデル（RobLM）として微調整し、ロングホライズンなロボットタスク計画に適用する手法を提案する。この手法により、自然言語の指示から実行可能な順序計画を生成でき、特に初期行動の文脈的に豊かな記述が与えられた場合に、ALFREDベンチマークで優れた性能を発揮する。

ABSTRACT

Long-horizon task planning is essential for the development of intelligent assistive and service robots. In this work, we investigate the applicability of a smaller class of large language models (LLMs), specifically GPT-2, in robotic task planning by learning to decompose tasks into subgoal specifications for a planner to execute sequentially. Our method grounds the input of the LLM on the domain that is represented as a scene graph, enabling it to translate human requests into executable robot plans, thereby learning to reason over long-horizon tasks, as encountered in the ALFRED benchmark. We compare our approach with classical planning and baseline methods to examine the applicability and generalizability of LLM-based planners. Our findings suggest that the knowledge stored in an LLM can be effectively grounded to perform long-horizon task planning, demonstrating the promising potential for the future application of neuro-symbolic planning methods in robotics.

研究の動機と目的

より小さなLLM、具体的にはGPT-2を用いて、ロボティクス分野におけるグランド付きロングホライズンタスク計画の可能性を検証すること。
構造化されたシーングラフ表現を用いて、自然言語のタスク要求を実行可能なロボット計画に変換する手法を開発すること。
計算制約下での古典的計画法と比較して、LLMベースの計画法の汎用性と性能を評価すること。
文脈的グランドがLLMベースの計画法における計画生成の正確性と適応性にどのように寄与するかを調査すること。

提案手法

ドメインは、オブジェクト、その属性、空間的・意味的関係をエンコードするシーングラフとして表現される。
シーングラフは自然言語記述に線形化され、GPT-2の微調整用の入力として使用される。
微調整されたGPT-2モデル（名称：RobLM）は、自然言語の指示から順序付きの行動計画を生成する。
モデルは、タスクのゴールと初期行動の文脈的に豊かな記述を組み合わせて、ALFREDベンチマークで訓練される。
計画の正確性を向上させるために、最大1024トークンまでの完全な文脈を含むプロンプト工学戦略が採用される。
モデル入力用に構造化されたシーングラフを自然言語に変換する新規コンponent「Graph2NL」が導入される。

実験結果

リサーチクエスチョン

RQ1シーングラフ表現にグランドされた微調整済みGPT-2モデルは、正確で実行可能なロボット計画を生成できるか？
RQ2初期行動の記述などの文脈的情報は、LLMベースの計画法の性能にどのように影響するか？
RQ3古典的計画法と比較して、グランド付きLLM計画法の成功確率と汎用性はどの程度か？
RQ4LLMは、重みに格納された日常的知識を用いて、ロングホライズンタスクに対してどの程度の推論が可能か？
RQ5リアルタイムのロボット計画にLLMを用いる際の計算上のトレードオフは何か？

主な発見

RobLMは、特に最初の指示の自然言語記述が与えられた場合、『フルプラン』の行動と引数において高い正確性を達成する。
文脈情報が与えられると、RobLMの性能は古典的計画ベースラインに近づき、文脈的キューに強い適応性を示す。
GPT-2の完全な語彙と内部生成メカニズムのため、モデルの推論速度は古典的計画法よりも著しく遅く、文脈を含む状態では1秒あたり0.2イテレーションにとどまる。
この手法により、GPT-2のような小さなモデルであっても、構造化されたシーングラフによるグランドによって、ロングホライズンタスクに対する有効な推論が可能であることが示された。
結果から、LLMは部分観測環境において特に有用な日常的知識を記憶・抽出できることを示している。
速度と一貫性の制限があるものの、本手法はロボティクス分野におけるニューロシンボリック計画の有望な可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。