QUICK REVIEW

[논문 리뷰] HumanDiffusion: A Vision-Based Diffusion Trajectory Planner with Human-Conditioned Goals for Search and Rescue UAV

Faryal Batool, Iana Zhura|arXiv (Cornell University)|2026. 01. 21.

Robotics and Sensor-Based Localization인용 수 0

한 줄 요약

HumanDiffusion은 YOLO 기반 인간 탐지를 사용하여 동적 목표를 정의하고 픽셀 공간 확산 모델을 이용해 지도 없이 안전한 UAV 궤적을 생성합니다. 시뮬레이션 및 실제 실내 시험에서 80%의 임무 성공률로 검증되었습니다.

ABSTRACT

Reliable human--robot collaboration in emergency scenarios requires autonomous systems that can detect humans, infer navigation goals, and operate safely in dynamic environments. This paper presents HumanDiffusion, a lightweight image-conditioned diffusion planner that generates human-aware navigation trajectories directly from RGB imagery. The system combines YOLO-11 based human detection with diffusion-driven trajectory generation, enabling a quadrotor to approach a target person and deliver medical assistance without relying on prior maps or computationally intensive planning pipelines. Trajectories are predicted in pixel space, ensuring smooth motion and a consistent safety margin around humans. We evaluate HumanDiffusion in simulation and real-world indoor mock-disaster scenarios. On a 300-sample test set, the model achieves a mean squared error of 0.02 in pixel-space trajectory reconstruction. Real-world experiments demonstrate an overall mission success rate of 80% across accident-response and search-and-locate tasks with partial occlusions. These results indicate that human-conditioned diffusion planning offers a practical and robust solution for human-aware UAV navigation in time-critical assistance settings.

연구 동기 및 목표

시간이 급박한 수색 및 구조 시나리오에서 명시적 지도나 미리 정의된 목표 없이도 자율적인 인간 인지 기반 항해를 촉진한다.
시각 기반 인간 탐지와 확산 구동 궤적 생성을 결합하는 엔드 투 엔드 파이프라인을 개발한다.
실시간 픽셀 공간 궤적 계획을 enable 하여 인간에 안전하게 접근하면서 안전 여유를 확보한다.
시뮬레이션 데이터로 학습하고 실제 실내 실험에서 평가하여 시뮬레-실제 전이를 입증한다

제안 방법

RGB 프레임에서 동적 목표 지점을 생성하기 위해 YOLO 기반 인간 탐지를 통합한다.
시작점, 추정 목표 및 RGB 이미지를 조건으로 하는 픽셀 공간 궤적을 생성하는 조건부 UNet 확산 모델을 사용한다.
제곱 코사인 스케줄의 순방향 확산 프로세스와 DDPM 스타일의 역 디노이징을 구현하여 깨끗한 궤적 마스크를 생성한다.
궤적 재구성 및 엔드포인트 정확도(L_{path} 및 L_{endpoint})를 결합한 합성 손실로 학습한다.
2D 픽셀 공간 궤적을 생성하고 깊이 및 카메라 내부 파라미터를 사용하여 UAV 실행용으로 3D 월드 프레임 경로로 투영한다.
시뮬레이션 데이터(9,800 개의 실제 궤적; 8,000 학습, 1,500 평가, 300 테스트) 및 실제 실내 시나리오에서 평가한다.

실험 결과

연구 질문

RQ1RGB 영상에 조건화된 확산 기반 계획기가 인간 중심의 SAR 작업에 대해 지도 없이 신뢰할 수 있는 궤적을 생성할 수 있는가?
RQ2YOLO에서 추출된 인간 목표와 확산 궤적 생성기 인큐딩이 가려짐 및 부분 가시성 하에서 견고한 성능을 산출하는가?
RQ3시뮬레이션-실제(diffusion) 계획이 시간에 민감한 지원을 위한 실제 실내 환경으로 얼마나 잘 전이되는가?
RQ4비전 조건화 확산 계획에서 동적 인간-로봇 협업 시나리오의 한계점과 실패 모드는 무엇인가?

주요 결과

300샘플 테스트 세트에서 모델은 픽셀 공간 궤적 재구성에서 평균 제곱 오차 0.02를 달성한다.
실세계 시험에서 부분 가림에도 걸쳐 사고 대응 및 찾기-로케이트 작업에서 전체 임무 성공률 80%를 달성한다.
시나리오 1(사고 대응)에서 9/10 성공적 전달을 달성하였다.
시나리오 2(가려진 환경에서의 찾기-로케이트)에서 7/10 성공을 달성하였다.
퍼시피션 손실(2건의 시험), 제어기 추적 오류(1건), 통신 중단(1건)으로 인한 실패가 있었다.
궤적 생성을 프레임당 0.2–0.3초의 속도로 수행하고 안전을 위한 1m 여유를 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.