[論文レビュー] BTGenBot-2: Efficient Behavior Tree Generation with Small Language Models
BTGenBot-2は、自然言語からROS2ロボット用の実行可能なビヘイビアツリーを生成する1BパラメータのオープンソースLLMで、デバイス上デプロイと新しいBTベンチマークを特徴とします。
Recent advances in robot learning increasingly rely on LLM-based task planning, leveraging their ability to bridge natural language with executable actions. While prior works showcased great performances, the widespread adoption of these models in robotics has been challenging as 1) existing methods are often closed-source or computationally intensive, neglecting the actual deployment on real-world physical systems, and 2) there is no universally accepted, plug-and-play representation for robotic task generation. Addressing these challenges, we propose BTGenBot-2, a 1B-parameter open-source small language model that directly converts natural language task descriptions and a list of robot action primitives into executable behavior trees in XML. Unlike prior approaches, BTGenBot-2 enables zero-shot BT generation, error recovery at inference and runtime, while remaining lightweight enough for resource-constrained robots. We further introduce the first standardized benchmark for LLM-based BT generation, covering 52 navigation and manipulation tasks in NVIDIA Isaac Sim. Extensive evaluations demonstrate that BTGenBot-2 consistently outperforms GPT-5, Claude Opus 4.1, and larger open-source models across both functional and non-functional metrics, achieving average success rates of 90.38% in zero-shot and 98.07% in one-shot, while delivering up to 16x faster inference compared to the previous BTGenBot.
研究の動機と目的
- オープンで効率的、かつデプロイ可能なLLMベースのロボットタスク計画のニーズに対処するため、クローズドAPIや大規模モデルに依存しない取り組みを進める。
- 自然言語とアクションプリミティブからROS2互換XMLビヘイビアツリーを直接出力する軽量なSLMを開発する。
- 推論時と実行時の堅牢なエラーハンドリングを提供し、実ロボットでの信頼性を向上させる。
- シミュレーションと実機でのナビゲーションとマニピュレーションタスクを含む、LLMベースのBT生成の標準化ベンチマークを導入する。
提案手法
- 5,204件のBTと自然言語記述およびアクションプリミティブをペアにした合成インストラクション対応データセットを用いた、1BパラメータのLlama-3.2-1B-InstructモデルをQLoRA(PEFT)でファインチューニングする。
- TSE BTコレクションからデータセットをキュレーションし、GPTベースツールで合成バリアントを生成し、BTがXML互換で、許可されたアクションのみを使用するよう訓練ターゲットを作成する。
- 推論時にXMLとアクションプリミティブの検証を厳格に行い、出力の不正形成を回避する。
- 軽量なプロセス内ロガーを介してランタイムエラー復旧を実装し、障害が伝搬する場合にはサブツリー再生成をトリガーできるようにする。
- BehaviorTree.CPP検証とスタックトレースとブラックボード状態のインラインロガーを備えたROS2互換のBT生成ワークフローをデプロイする。
実験結果
リサーチクエスチョン
- RQ11BパラメータのオープンソースLLMをファインチューニングして、自然言語と与えられたアクションプリミティブ集合からROS2互換の実行可能なビヘイビアツリーを信頼性高く生成できるか。
- RQ2明示的な推論時およびランタイム検証を備えた軽量なデバイス内BTジェネレータが、BT品質と実行信頼性の点で大規模なクローズドソースモデルを上回るか。
- RQ3提案されたER(エラーリカバリ)機構が、標準化されたBTベンチマークで易い・中程度・難しいタスクに対するゼロショットおよびワンショットのパフォーマンスにどのような影響を与えるか。
- RQ4データセットの規模とキュレーション戦略が、ロボティクスの指示追従エージェントのBT生成品質に与える影響はどのようか。
主な発見
- BTGenBot-2は、GPT-5系、Claude Opus 4.1、元のBTGenBotに対して、ゼロショットおよびワンショット設定の平均機能的/非機能的スコアが高い。
- ゼロショットの平均成功率(SR)はBTGenBot-2で84.61%、強力なベースラインを上回る;ワンショットSRは92.38%に上昇。
- BTGenBot-2–ER(エラーリカバリ付き)は、ゼロショット90.38%、ワンショット98.07%のSRを達成し、多くのケースでXML構文が100%でアクション整合性が完璧。
- BTGenBot-2の推論時間はゼロショットで約11秒程度で、ワンショット設定でも競争力があり、ERはわずかなオーバーヘッドを追加。
- 著者らは最初の標準化BTベンチマーク(NVIDIA Isaac Simの52タスク)を公開し、実ロボット検証でナビゲーションタスク17/18、ER時18/18の成功を示す。
- 5,204サンプルのBTデータセットをキュレーションしてQLoRAでファインチューニングすると、事前学習済みのベースラインおよび従来のBT生成器と比較してパフォーマンスが大幅に向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。