QUICK REVIEW

[논문 리뷰] GazeD: Context-Aware Diffusion for Accurate 3D Gaze Estimation

Riccardo Catalini, Davide Di Nucci|arXiv (Cornell University)|2026. 01. 19.

Gaze Tracking and Assistive Technology인용 수 0

한 줄 요약

GazeD는 단일 RGB 이미지에서 시선 방향과 3D 자세를 공동으로 추정하며, 시선을 추가 관절로 모델링하고 2D 자세, 주위 환경, 씬 컨텍스트에 조건을 부여하는 확산 모델을 사용하여 여러 타당한 가설을 생성합니다.

ABSTRACT

We introduce GazeD, a new 3D gaze estimation method that jointly provides 3D gaze and human pose from a single RGB image. Leveraging the ability of diffusion models to deal with uncertainty, it generates multiple plausible 3D gaze and pose hypotheses based on the 2D context information extracted from the input image. Specifically, we condition the denoising process on the 2D pose, the surroundings of the subject, and the context of the scene. With GazeD we also introduce a novel way of representing the 3D gaze by positioning it as an additional body joint at a fixed distance from the eyes. The rationale is that the gaze is usually closely related to the pose, and thus it can benefit from being jointly denoised during the diffusion process. Evaluations across three benchmark datasets demonstrate that GazeD achieves state-of-the-art performance in 3D gaze estimation, even surpassing methods that rely on temporal information. Project details will be available at https://aimagelab.ing.unimore.it/go/gazed.

연구 동기 및 목표

자연스럽지 않은 환경에서 맥락 정보와 자세 정보를 활용하여 정확한 3D 시선 추정을 촉진한다.
여러 개의 그럴듯한 3D 시선 및 자세 가설을 생성하기 위한 확산 기반 프레임워크를 제안한다.
시선을 추가 관절로 새롭게 정의하여 시선 추정과 자세 추정을 통합한다.
시퀀스 데이터나 깊이 모듀얼리티가 필요하지 않은 상태에서 여러 데이터셋에서 최첨단 성능을 보여준다.

제안 방법

시선을 이마 부위에 고정된 거리에서 눈에서 떨어진 위치의 추가 관절(시선 관절)로 표현한다.
확산 모델을 사용해 3D 시선과 3D 자세를 공동으로 회귀하고, 디노이즈링을 통한 여러 가설을 스케줄러(DDIM)로 생성한다.
확산 과정을 두 개의 임베딩 스트림에 조건화한다: (i) Body & Surroundings가 2D 자세와 근처 컨텍스트를 Pose-to-Context 및 Joint-to-Joint 어텐션 메커니즘으로 융합하고, (ii) Context with Objects가 DETR 유사 감지기와 교차 주의를 통해 씬 수준의 객체 정보를 통합한다.
HRNet과 변형 가능한 컨텍스트 추출을 통해 지역적 관절 신호와 글로벌 씬 컨텍스트를 모두 포착하는 다중 스케일 특성을 추출한다.
간단한 평균(AVG) 또는 oracle 기반 선택(ORC_G, ORC_P, ORC_J)을 사용해 여러 가설을 집계하여 3D 시선 정확도를 향상시킨다.
단일 RGB 이미지에서 작동하며(시퀀셜 데이터나 깊이가 필요 없음) 관절 좌표에 대한 통합 MSE 손실로 학습한다.

실험 결과

연구 질문

RQ1컨텍스트(주위 환경 및 씬 객체)와 신체 자세 정보가 단일 RGB 이미지에서의 3D 시선 추정에 도움이 되는가?
RQ2시선을 가상 관절로 모델링하고 확산 기반 다중 가설 생성을 사용하면 시퀀스 정보나 깊이 데이터 없이도 최첨단 3D 시선 정확도를 얻을 수 있는가?
RQ3여러 확산 가설을 결합하는 다양한 집계 전략이 시선 정확도에 어떤 영향을 미치는가?
RQ4제안된 접근법이 현실적이고 제약 없는 다양한 데이터셋에서 어떻게 성능을 발휘하는가?

주요 결과

GazeD는 GAFA 및 GFIE 데이터셋에서 최첨단 3D 시선 추정 성능을 달성하며, 시퀀스 정보나 추가 모듈에 의존하는 방법을 능가한다.
확산 기반 다중 가설 프레임워크는 2D에서 3D로의 불확실성을 자연스럽게 처리하고 여러 타당한 시선/자세 가설을 생성한다.
context-with-objects 모듈의 도입은 본문과 주변 정보만 사용할 때보다 시선 추정 성능을 크게 개선한다.
시선을 추가 관절로 처리하면 단일 회귀 헤드와 통합 손실로 시선과 자세를 함께 최적화할 수 있다.
AVG 또는 더 정보를 제공하는 oracle 기반 전략으로 다수 가설을 집계하면 단일 가설 베이스라인에 근접하거나 이를 능가할 수 있어 확산 기반 앙상블의 이점을 보여준다.
이 방법은 시선 추정 외에도 3D 자세 추정에서도 경쟁력 있거나 강력한 성능을 보여, 더 넓은 적용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.