Skip to main content
QUICK REVIEW

[논문 리뷰] Realistic Synthetic Household Data Generation at Scale

Siddharth Singh, Ifrah Idrees|arXiv (Cornell University)|2026. 02. 06.
Social Robot Interaction and HRI인용 수 0
한 줄 요약

양방향으로 결합된 프레임워크가 사용자 페르소나에 의해 안내되는 확장 가능한 의미론적으로 일관된 합성 가정 환경과 장기적인 인간-로봇 상호작용 데이터를 생성하고, 실세계 및 합성 기준선에 대해 반복적 정제로 검증된다.

ABSTRACT

Advancements in foundation models have catalyzed research in Embodied AI to develop interactive agents capable of environmental reasoning and interaction. Developing such agents requires diverse, large-scale datasets. Prior frameworks generate synthetic data for long-term human-robot interactions but fail to model the bidirectional influence between human behavior and household environments. Our proposed generative framework creates household datasets at scale through loosely coupled generation of long-term human-robot interactions and environments. Human personas influence environment generation, while environment schematics and semantics shape human-robot interactions. The generated 3D data includes rich static context such as object and environment semantics, and temporal context capturing human and agent behaviors over extended periods. Our flexible tool allows users to define dataset characteristics via natural language prompts, enabling configuration of environment and human activity data through natural language specifications. The tool creates variations of user-defined configurations, enabling scalable data generation. We validate our framework through statistical evaluation using multi-modal embeddings and key metrics: cosine similarity, mutual information gain, intervention analysis, and iterative improvement validation. Statistical comparisons show good alignment with real-world datasets (HOMER) with cosine similarity (0.60), while synthetic datasets (Wang et al.) show moderate alignment (0.27). Intervention analysis across age, organization, and sleep pattern changes shows statistically significant effects (p < 0.001) with large effect sizes (Cohen's d = 0.51-1.12), confirming bidirectional coupling translates persona traits into measurable environmental and behavioral differences. These contributions enable development and testing of household smart devices at scale.

연구 동기 및 목표

  • 다양한 가정 환경에서 구현형 AI를 학습시키기 위한 대규모의 현실적인 합성 데이터의 필요성을 제시한다.
  • 환경 도식과 인간 활동 생성 사이를 연결하는 양방향적이고 느슨하게 결합된 프레임워크를 제안한다.
  • 페르소나 주도 환경 생성과 환경 정보를 활용한 활동 합성을 시간적 일관성과 함께 가능하게 한다.
  • 반복적 정제와 다중 모달 검증을 통해 양방향 정보 교환을 시연한다.
  • 가정용 로봇 데이터 파이프라인에 대한 시뮬레이션-실세계 정렬 및 실용적 유용성을 보여준다.

제안 방법

  • 환경 도식 생성기가 페르소나 요구사항에 따라 의미론적 객체 배치를 포함한 3D 가정 배치를 생성한다.
  • 인간 활동 및 HRI 생성기가 환경적 어포던스에 고정된 시계열적으로 일관된 행동 시퀀스를 합성한다.
  • 양방향 영향 제어기가 환경 모듈과 활동 모듈 간의 반복적 정보 교환을 조정한다.
  • 유니버설 시뮬레이터 어댑터가 의미를 보존하면서 중간 표현을 시뮬레이터-독립적 형식으로 변환한다.
  • 환경 밀도, 활동 세분성 및 의미론적 유사성 기준에 따라 수렴될 때까지 반복적 정제가 계속된다.
Figure 1: Framework Pipeline Overview: Our bidirectional generation framework comprises three primary modules operating in an iterative refinement cycle. The Environment Schematic Generator produces 3D household layouts based on persona-driven requirements. The Human Activity and HRI Generator synth
Figure 1: Framework Pipeline Overview: Our bidirectional generation framework comprises three primary modules operating in an iterative refinement cycle. The Environment Schematic Generator produces 3D household layouts based on persona-driven requirements. The Human Activity and HRI Generator synth

실험 결과

연구 질문

  • RQ1환경 생성과 인간 활동 합성 간의 양방향 결합이 더 현실적이고 의미적으로 기반이 되는 합성 가정 데이터를 생성할 수 있는가?
  • RQ2페르소나 주도 환경 생성과 활동 생성이 실제 가정 패턴과 일치하고 확장 가능한 변이를 가능하게 하는가?
  • RQ3반복적 정제가 페르소나, 환경, 행동 간의 의미론적 일관성과 상호 정보량을 개선하는가?
  • RQ4생성된 데이터가 실제 데이터셋(예: HOMER)과 다른 합성 기준선에 비해 얼마나 잘 정렬되는가?
  • RQ5대규모 생성의 실용적 계산 비용은 무엇이며 그것이 타당성에 어떤 영향을 미치는가?

주요 결과

IterationMI(P,E)+MI(E,B)Cosine Sim.
10.45±0.090.58±0.12
20.62±0.080.65±0.10
30.74±0.060.71±0.08
40.81±0.050.76±0.07
50.85±0.040.79±0.06
  • 다양체 간 의미론적 정렬이 강하다: 환경-행동 코사인 유사도 0.72, 페르소나-환경 0.68, 페르소나-행동 0.61.
  • 양방향 결합이 환경을 매개로 페르소나와 행동을 중재하며, 반복이 진행될수록 상호 정보 이득이 증가한다 (MI(P,E)+MI(E,B) 최대 0.85).
  • 개입 분석은 페르소나 변화가 환경과 행동 모두에 미치는 유의한 인과 효과를 보여준다 (p<0.001; Cohen의 d 0.51–1.12).
  • 실제 세계 정합성 검증에서 HOMER와의 유사성이 좋게 나타나며(코사인 ~0.60), Wang 등 연구의 합성 페르소나와의 정합도는 약하게 나타난다(코사인 ~0.27).
  • 계산적 평가에서 여러 LLM 호출과 처리 시간으로 확장 가능한 사용을 시사한다(작은 테스트 시나리오의 경우 환경 50.00s, HRI 81.04s, 양방향 19.00s).
Figure 2: Input Specification and Contextual Memory Framework: Our system accepts structured natural language descriptions of household member personas and environmental constraints. The framework maintains contextual memory across the pipeline, providing the LLM with context regarding task requirem
Figure 2: Input Specification and Contextual Memory Framework: Our system accepts structured natural language descriptions of household member personas and environmental constraints. The framework maintains contextual memory across the pipeline, providing the LLM with context regarding task requirem

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.