Skip to main content
QUICK REVIEW

[論文レビュー] Realistic Synthetic Household Data Generation at Scale

Siddharth Singh, Ifrah Idrees|arXiv (Cornell University)|Feb 6, 2026
Social Robot Interaction and HRI被引用数 0
ひとこと要約

Bidirectionally coupling framework が、ユーザーペルソナに導かれた、スケーラブルで意味的に一貫した合成家庭環境と長期的な人間-ロボット相互作用データを生成し、反復 refine により実データと合成ベースラインに対して検証します。

ABSTRACT

Advancements in foundation models have catalyzed research in Embodied AI to develop interactive agents capable of environmental reasoning and interaction. Developing such agents requires diverse, large-scale datasets. Prior frameworks generate synthetic data for long-term human-robot interactions but fail to model the bidirectional influence between human behavior and household environments. Our proposed generative framework creates household datasets at scale through loosely coupled generation of long-term human-robot interactions and environments. Human personas influence environment generation, while environment schematics and semantics shape human-robot interactions. The generated 3D data includes rich static context such as object and environment semantics, and temporal context capturing human and agent behaviors over extended periods. Our flexible tool allows users to define dataset characteristics via natural language prompts, enabling configuration of environment and human activity data through natural language specifications. The tool creates variations of user-defined configurations, enabling scalable data generation. We validate our framework through statistical evaluation using multi-modal embeddings and key metrics: cosine similarity, mutual information gain, intervention analysis, and iterative improvement validation. Statistical comparisons show good alignment with real-world datasets (HOMER) with cosine similarity (0.60), while synthetic datasets (Wang et al.) show moderate alignment (0.27). Intervention analysis across age, organization, and sleep pattern changes shows statistically significant effects (p < 0.001) with large effect sizes (Cohen's d = 0.51-1.12), confirming bidirectional coupling translates persona traits into measurable environmental and behavioral differences. These contributions enable development and testing of household smart devices at scale.

研究の動機と目的

  • 多様な家庭環境で embodied AI を学習させるための、大規模で現実的な合成データの必要性を動機づける。
  • 環境スキーマと人間の行動生成を結ぶ、双方向の緩やかな結合フレームワークを提案する。
  • ペルソナ駆動の環境生成と、環境情報に基づく活動合成を時間的一貫性をもって実現する。
  • 反復 refinement と多モーダル検証を通じた双方向情報交換を示す。
  • シミュレータ実データ整合と家庭用ロボティクスデータパイプラインの実用性を示す。

提案手法

  • Environment Schematic Generator がペルソナ要件に基づく意味情報付きオブジェクト配置を持つ3D家庭レイアウトを作成する。
  • Human Activity and HRI Generator が環境のアフォーダンスに支えられた時間的に一貫した行動系列を合成する。
  • Bidirectional Influence Controller が環境モジュールと活動モジュール間の反復的情報交換を調整する。
  • Universal Simulator Adapter が中間表現をシミュレーター非依存の形式へ変換しつつ意味論を保持する。
  • 環境密度、活動の粒度、意味的類似性基準に基づく収束まで、反復 refinement を続ける。
Figure 1: Framework Pipeline Overview: Our bidirectional generation framework comprises three primary modules operating in an iterative refinement cycle. The Environment Schematic Generator produces 3D household layouts based on persona-driven requirements. The Human Activity and HRI Generator synth
Figure 1: Framework Pipeline Overview: Our bidirectional generation framework comprises three primary modules operating in an iterative refinement cycle. The Environment Schematic Generator produces 3D household layouts based on persona-driven requirements. The Human Activity and HRI Generator synth

実験結果

リサーチクエスチョン

  • RQ1環境生成と人間活動生成の双方向結合は、より現実的で意味的に根拠のある合成家庭データを生み出せるか。
  • RQ2ペルソナ駆動の環境生成と活動生成は現実世界の家庭パターンと整合し、スケーラブルな変化を可能にするか。
  • RQ3反復的な refinements は意味的整合性とペルソナ・環境・行動間の相互情報量を改善するか。
  • RQ4生成データは実データセット(例:HOMER)と他の合成ベースラインとどの程度一致するか。
  • RQ5大規模生成の実用的な計算コストはどの程度で、実現性にどのように影響するか。

主な発見

IterationMI(P,E)+MI(E,B)Cosine Sim.
10.45±0.090.58±0.12
20.62±0.080.65±0.10
30.74±0.060.71±0.08
40.81±0.050.76±0.07
50.85±0.040.79±0.06
  • モーダリティ間の意味的整合性は高い:環境–行動のコサイン類似度 0.72、ペルソナ–環境 0.68、ペルソナ–行動 0.61。
  • 双方向結合は環境を介してペルソナと行動を媒介し、反復ごとに相互情報量が増加(MI(P,E)+MI(E,B) が最大 0.85)する。
  • 介入分析はペルソナの変更が環境と行動の両方に有意な因果効果を示す(p<0.001; Cohen’s d 0.51–1.12)。
  • 実世界の整合性検証は HOMER との類似性が良好(コサイン約 0.60)、Wang らの合成ペルソナとの整合性は弱い(コサイン約 0.27)。
  • 計算評価は小規模なテストシナリオで、複数の LLM 呼び出しと処理時間を要するスケーラブルな利用を示す(環境 50.00s、HRI 81.04s、双方向 19.00s)。
Figure 2: Input Specification and Contextual Memory Framework: Our system accepts structured natural language descriptions of household member personas and environmental constraints. The framework maintains contextual memory across the pipeline, providing the LLM with context regarding task requirem
Figure 2: Input Specification and Contextual Memory Framework: Our system accepts structured natural language descriptions of household member personas and environmental constraints. The framework maintains contextual memory across the pipeline, providing the LLM with context regarding task requirem

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。