QUICK REVIEW

[논문 리뷰] WaveMan: mmWave-Based Room-Scale Human Interaction Perception for Humanoid Robots

Yuxuan Hu, Kuangji Zuo|arXiv (Cornell University)|2026. 01. 12.

Indoor and Outdoor Localization Technologies인용 수 0

한 줄 요약

WaveMan은 방 규모 인간형 로봇 상호 작용을 위해 공간적으로 적응하는 mmWave 인지 시스템을 제시하며, 기하학 및 스펙트로그램 강화와 주의 기반 융합을 통해 제약 없는 사용자 위치에서도 견고한 제스처 인식을 달성합니다.

ABSTRACT

Reliable humanoid-robot interaction (HRI) in household environments is constrained by two fundamental requirements, namely robustness to unconstrained user positions and preservation of user privacy. Millimeter-wave (mmWave) sensing inherently supports privacy-preserving interaction, making it a promising modality for room-scale HRI. However, existing mmWave-based interaction-sensing systems exhibit poor spatial generalization at unseen distances or viewpoints. To address this challenge, we introduce WaveMan, a spatially adaptive room-scale perception system that restores reliable human interaction sensing across arbitrary user positions. WaveMan integrates viewpoint alignment and spectrogram enhancement for spatial consistency, with dual-channel attention for robust feature extraction. Experiments across five participants show that, under fixed-position evaluation, WaveMan achieves the same cross-position accuracy as the baseline with five times fewer training positions. In random free-position testing, accuracy increases from 33.00% to 94.33%, enabled by the proposed method. These results demonstrate the feasibility of reliable, privacy-preserving interaction for household humanoid robots across unconstrained user positions.

연구 동기 및 목표

실내 공간에서 사용자 위치가 넓게 변화하는 상황에서 신뢰할 수 있고 프라이버시를 보장하는 인간형 로봇 상호 작용을 촉진한다.
다양한 시점에서의 관측을 하나의 통합 공간으로 정렬하기 위한 공간적으로 적응하는 인지 파이프라인을 개발한다.
스펙트로그램 강화 및 다중 도메인 표현을 통해 원거리 희소성과 시점 변화에 의한 왜곡을 완화한다.
기하학, 스펙트럼, 방향 인식 특징을 주의 기반 인식 네트워크를 통해 융합한다.
고정된 위치, 미지의 위치 및 임의 위치에 대한 평가를 포함한 인간형 로봇의 실세계 배치를 시연한다.

제안 방법

보기 위치로 인해 생기는 왜곡을 줄이기 위해 레이더 포인트 클라우드를 표준 정면 구성으로 기하학적으로 정렬한다.
Enhancer–Reducer 쌍과 CycleGAN 스타일 손실을 사용하여 희소한 장거리 스펙트로그램을 밀집 표현으로 변환하는 비지도 스펙트로그램 강화.
특징 채널의 가중치를 재조정하여 다양한 위치 간 인식을 견고하게 하는 이중 분기 채널 주의(DBCA) 모듈.
범위(RT, DT, HT, ET, XT/YT/ZT)를 포착하기 위한 다중 도메인 스펙트로그램 구성.
UDP로 인식된 제스처가 인간형 로봇 동작으로 매핑되는 외부 워크스테이션에서 실행되는 실시간 인지 파이프라인.
제한 없이 다양한 사용자 위치에서도 안정적인 상호 작용을 가능하게 하는 인지–동작 루프를 갖춘 온라인 스트리밍 처리.

Figure 1: Spatially adaptive room-scale interaction scenario. WaveMan aligns observations from different user spatial positions into a unified perception space to mitigate spatial inconsistencies.

실험 결과

연구 질문

RQ1실내 공간에서의 인간형 로봇 상호 작용에서 mmWave 기반 감지가 다양한 사용자 위치와 시점을 어떻게 견고하게 만들 수 있는가?
RQ2기하학적 정렬, 스펙트로그램 강화, 주의 기반 융합이 보지 못한 공간 구성에서도 안정적인 제스처 인식을 가능하게 할 수 있는가?
RQ3공간 정렬과 스펙트럴 강화가 교차 위치 일반화 및 임의 위치(자유 시야) 제스처 인식에 미치는 영향은 무엇인가?
RQ4제안된 시스템은 인간형 로봇과의 폐쇄된 인지–동작 루프에 적합한 실시간 작동이 가능한가?

주요 결과

미지의 위치에서의 정확도는 WaveMan을 사용할 때 극적으로 향상되며, 예를 들어 단일 학습 위치에서 80.35%로 기준선 60.57%보다 높다.
다섯 개의 학습 위치에서 미지의 정확도는 WaveMan이 97.67%에 도달하고, 베이스라인은 80% 미만으로 남아 있다.
무작위 자유 위치 테스트에서 WaveMan은 94.33%의 정확도를 달성하고, 베이스라인 33.51%에서 60.82pp 향상이다.
다양한 구성을 통해 교차 위치 성능 향상이 지속되며, 미지의 시점과 거리로의 강력한 일반화를 보여준다.
엔드투엔드 강화–인식 파이프라인은 샘플당 약 5.45 ms로 실행되며 일반 하드웨어에서 실시간 인간–로봇 상호 작용을 지원한다.
데이터셋은 방 규모의 실내 환경에서 5명의 참가자가 5개 제스처 클래스를 수행하며 12,000개의 샘플이 수집된다.

Figure 2: Overview of the proposed spatially adaptive interaction framework. (a) Radar point-cloud data captured under diverse positional configurations are spatially aligned and transformed into spectrogram representations. (b) Sparse spectrograms are enhanced and fused with dense spectra to obtain

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.