QUICK REVIEW

[論文レビュー] LogicEnvGen: Task-Logic Driven Generation of Diverse Simulated Environments for Embodied AI

Jianan Wang, Siyang Zhang|arXiv (Cornell University)|Jan 20, 2026

Artificial Intelligence in Games被引用数 0

ひとこと要約

LogicEnvGenは、タスク特有の行動計画を導出し、論理的轨道を収集し、制約付き環境レイアウトを構築することで、 embodiment AI のテストケースとして論理的に多様で物理的に現実的なシミュレーション環境を生成するLLM駆動型フレームワークである。LogicEnvEvalは4つの指標を備えたベンチマークを導入する。

ABSTRACT

Simulated environments play an essential role in embodied AI, functionally analogous to test cases in software engineering. However, existing environment generation methods often emphasize visual realism (e.g., object diversity and layout coherence), overlooking a crucial aspect: logical diversity from the testing perspective. This limits the comprehensive evaluation of agent adaptability and planning robustness in distinct simulated environments. To bridge this gap, we propose LogicEnvGen, a novel method driven by Large Language Models (LLMs) that adopts a top-down paradigm to generate logically diverse simulated environments as test cases for agents. Given an agent task, LogicEnvGen first analyzes its execution logic to construct decision-tree-structured behavior plans and then synthesizes a set of logical trajectories. Subsequently, it adopts a heuristic algorithm to refine the trajectory set, reducing redundant simulation. For each logical trajectory, which represents a potential task situation, LogicEnvGen correspondingly instantiates a concrete environment. Notably, it employs constraint solving for physical plausibility. Furthermore, we introduce LogicEnvEval, a novel benchmark comprising four quantitative metrics for environment evaluation. Experimental results verify the lack of logical diversity in baselines and demonstrate that LogicEnvGen achieves 1.04-2.61x greater diversity, significantly improving the performance in revealing agent faults by 4.00%-68.00%.

研究の動機と目的

エージェントの適応性と計画の頑健性を評価するために、論理的に多様なシミュレーション環境の必要性を動機付ける。
タスクロジックから行動計画を導出し、そこから多様な環境をインスタンス化するトップダウン型のフレームワークを開発する。
物理的妥当性を、オブジェクト配置とレイアウト設計の制約解法を通じて保証する。
ベンチマーク（LogicEnvEval）と、物理的妥当性・論理的多様性・欠陥検出力を定量化する指標を提供する。

提案手法

Phase 1: 行動計画導出では、LLMを用いてタスクを独立したサブタスクに分解し、各サブタスクの意思決定木構造の行動計画を生成する。
Phase 2: 論理的軌跡収集は、サブタスクの意思決定経路を組み合わせて異なる論理的軌跡を合成し、冗長性を削る最小軌跡選択（Minimal Trajectory Selection）ヒューリスティックを適用する。
Phase 3: シミュレート環境構築は、各軌跡に対して床面計画設計、資産ライブラリからのオブジェクト選択、CSPベースの制約解法を用いて物理的に妥当な環境を具体化する。
物理的妥当性を確保するため、オブジェクト配置を制約充足問題（CSP）としてモデリングし、Z3で解く。現実的でない周辺関係には緩和機構を設ける。
LogicEnvEvalを導入し、4つの評価指標を持つ25タスクの家事ベンチマークと、正しいポリシー1つ、欠陥ポリシー3つの4エージェンシー評価を実施する。
環境生成時の幻視（ハルシネーション）を抑制するため、LLMを誘導する制約付き軌跡プロンプト設計を採用する。

実験結果

リサーチクエスチョン

RQ1タスク実行論理を、 embodimentエージェント向けに多様で論理的に異なるテスト環境へどのように変換できるか？
RQ2トップダウン型、論理駆動の生成プロセスは、ベースライン手法と比較して論理的カバレッジと欠陥検出をどの程度改善するか？
RQ3制約解法と軌跡の剪定は、物理的妥当性と効率性の確保にどのような役割を果たすか？
RQ4LogicEnvEvalは、物理的妥当性、論理的多様性、シナリオ妥当性、欠陥検出の測定にどれだけ有効か？
RQ5アプローチは異なるLLM間で一般化でき、モデル能力の変動にも耐性を保つか？

主な発見

LogicEnvGenは、ベースラインよりも論理的カバレージを1.04–2.61倍向上させる。
LogicEnvGenは、欠陥ポリシーに対する欠陥検出率をベースラインと比較して4.00%–68.00%改善する。
CSPとZ3による制約ベースのオブジェクト配置を強制すると、物理的妥当性（PhyPR）が次元を超えて著しく向上する。
最小軌跡選択アルゴリズムは冗長性を削減し、計算コストを抑えつつ高いカバレージを維持する。
LogicEnvEvalは、25の長期タスクに基づく四つの評価軸（PhyPR, LogCov, SceVR, FauDR）を提供する四側面のベンチマークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。