QUICK REVIEW

[논문 리뷰] Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration

Zhuyu Teng, Pei Chen|arXiv (Cornell University)|2026. 03. 13.

Human-Automation Interaction and Safety인용 수 0

한 줄 요약

Eye2Eye는 공동 주의, 축적된 공통 기반, 및 반영적 피드백을 통해 인간-AI 인지 정렬을 달성하는 1인칭 시점 프레임워크를 제안하고, AR 프로토타입으로 구현되며 사용자 연구를 통해 평가된다.

ABSTRACT

Despite advances in multimodal AI, current vision-based assistants often remain inefficient in collaborative tasks. We identify two key gulfs: a communication gulf, where users must translate rich parallel intentions into verbal commands due to the channel mismatch , and an understanding gulf, where AI struggles to interpret subtle embodied cues. To address these, we propose Eye2Eye, a framework that leverages first-person perspective as a channel for human-AI cognitive alignment. It integrates three components: (1) joint attention coordination for fluid focus alignment, (2) revisable memory to maintain evolving common ground, and (3) reflective feedback allowing users to clarify and refine AI's understanding. We implement this framework in an AR prototype and evaluate it through a user study and a post-hoc pipeline evaluation. Results show that Eye2Eye significantly reduces task completion time and interaction load while increasing trust, demonstrating its components work in concert to improve collaboration.

연구 동기 및 목표

웨어러블 AI 협업을 가로막는 의사소통 및 이해의 격차를 식별한다.
Eye2Eye를 제안하여 1인칭 시점을 인지 정렬을 위한 공유 지각 채널로 전환한다.
AR 프로토타입에서 Eye2Eye를 구현하고 사용자 연구 및 파이프라인 평가를 통해 효과를 검증한다.

제안 방법

세 가지 핵심 구성요소인 Joint Attention Coordination, Accumulated Common Ground, Reflective Situated Feedback을 통해 Eye2Eye를 정의하고 운영화한다.
실시간 다중모드 지각 및 피드백을 구현하기 위해 Apple Vision Pro에서 AR 프로토타입을 개발한다.
상호 작용 기록을 지속적으로 축적하고 수정하는 객체-카드 메모리 모듈을 구현한다.
가벼운 지각에 이은 비전-언어 모델을 통한 의미 해석의 두 단계 주의 파이프라인을 만든다.
사용자 교정 및 새로운 상호작용으로 맥락을 업데이트하기 위해 검색 강화 메모리 워크플로를 채택한다.

실험 결과

연구 질문

RQ1공유된 1인칭 시점이 실시간 작업에서 인간과 AI 간의 정렬된 주의를 확립하고 유지할 수 있는가?
RQ2Eye2Eye가 기본 웨어러블 어시스턴트에 비해 접지 비용을 줄이고 상호작용 마찰을 완화하며 신뢰를 높일 수 있는가?
RQ3다중 모달 시그널(시선, 제스처, 음성)이 공통 기반 형성과 업데이트에 어떻게 기여하는가?
RQ4다회 상호작용에서 인지 정렬을 유지하는 데 지속적인 객체-카드 메모리의 역할은 무엇인가?

주요 결과

Eye2Eye는 협업 과제에서 작업 완료 시간과 상호작용 부담을 크게 줄인다.
이 프레임워크는 AI 협력자에 대한 사용자의 신뢰를 높인다.
다중 모달 표현은 공통 기반 형성에 독특하게 기여한다.
파이프라인 평가 결과 모든 구성요소가 시스템에 통합될 때 시너지를 발휘하는 것으로 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.