QUICK REVIEW

[論文レビュー] BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments

Sanjana Srivastava, Chengshu Li|arXiv (Cornell University)|Aug 6, 2021

Reinforcement Learning in Robotics参考文献 57被引用数 36

ひとこと要約

BEHAVIOR は現実的で多様、長期的な家庭内活動の100タスクベンチマークを提案し、述語論理のドメイン言語、シミュレータ非依存の要件、評価のための人間VRデモンストレーションを提供する。

ABSTRACT

We introduce BEHAVIOR, a benchmark for embodied AI with 100 activities in simulation, spanning a range of everyday household chores such as cleaning, maintenance, and food preparation. These activities are designed to be realistic, diverse, and complex, aiming to reproduce the challenges that agents must face in the real world. Building such a benchmark poses three fundamental difficulties for each activity: definition (it can differ by time, place, or person), instantiation in a simulator, and evaluation. BEHAVIOR addresses these with three innovations. First, we propose an object-centric, predicate logic-based description language for expressing an activity's initial and goal conditions, enabling generation of diverse instances for any activity. Second, we identify the simulator-agnostic features required by an underlying environment to support BEHAVIOR, and demonstrate its realization in one such simulator. Third, we introduce a set of metrics to measure task progress and efficiency, absolute and relative to human demonstrators. We include 500 human demonstrations in virtual reality (VR) to serve as the human ground truth. Our experiments demonstrate that even state of the art embodied AI solutions struggle with the level of realism, diversity, and complexity imposed by the activities in our benchmark. We make BEHAVIOR publicly available at behavior.stanford.edu to facilitate and calibrate the development of new embodied AI solutions.

研究の動機と目的

現実世界のデータに基づく、現実的で多様かつ複雑な100の日常的家庭活動のセットを定義する。
無限のインスタンス化を表現するための述語論理ベースのドメイン定義言語（BDDL）を提供する。初期条件と目標条件を表現する。
シミュレータに依存しない要件を特定し、iGibson 2.0 で機能的なインスタンス化を提供する。
人間相対の成功と効率のフレームワークを含む、堅牢な評価指標を確立する。
評価と模倣学習の基準として、VRベースの人間デモンストレーションデータセット（500デモ）を提供する。

提案手法

BEHAVIOR Domain Definition Language (BDDL) を導入し、シミュレート状態を初期条件と目標条件の意味的述語へ対応付ける述語論理表現を提供する。
現実的なシミュレーションのための環境非依存の機能要件を提案し、391カテゴリにわたる1217個のオブジェクトモデルを用いて iGibson 2.0 に BEHAVIOR をインスタンス化する。
活動を POMDPs として formal tau = {S_tau,0, S_tau,g} を持つと定義し、BDDL によって無限に有効な初期状態と解をサンプリングするメカニズムを提供する。
主要な成功指標 Q と6つの二次的な効率指標を含む包括的な評価指標を開発し、VR demonstation データセットを用いて人間のパフォーマンスで正規化する。
人間の基準真実として500のVRデモ（758.5分）を提供し、模倣学習および人間ベンチマークの分析を支援する。）

実験結果

リサーチクエスチョン

RQ1具現化型AIベンチマークにおける現実的で長期的な家庭内活動を、どのように定義・インスタンス化・評価するか？
RQ2述語論理ドメイン言語（BDDL）は、シーンを横断した無限で多様な活動のインスタンス化を可能にするか？
RQ3BEHAVIOR を実現するために必要なシミュレータの要件は何か、そして現在の具現化AI手法は BEHAVIOR タスクでどの程度性能を発揮するか？
RQ4現実感・多様性・複雑さの指標で、人間のVRデモはAIエージェントとどのように比較されるか？

主な発見

BEHAVIOR は長いホライズン、複数の物体、さまざまな状態変化を含む100の活動を生み出し、最先端のRL手法にとっては挑戦的である。
人間のVRデータセット500デモは、評価と模倣学習の豊かな真実値を提供する。
高度なセンシングとアクションにもかかわらず、元の BEHAVIOR 活動でゴール述語を達成するRLエージェントは苦戦する。ホライズンを短縮するか物理を簡略化すると性能が向上する。
シーン・物体・初期状態に渡る多様性と複雑さはRLの性能を著しく低下させ、階層的または計画ベースのアプローチの必要性を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。