Skip to main content
QUICK REVIEW

[논문 리뷰] HIDAgent: A Toolkit Enabling "Personal Agents" on HID-Compatible Devices

Jeffrey P. Bigham|arXiv (Cornell University)|2026. 01. 31.
Social Robot Interaction and HRI인용 수 0
한 줄 요약

HIDAgent가 키보드와 마우스를 에뮬레이션하여 UI 에이전트가 HID-호환 장치를 관찰하고 제어할 수 있게 하는 오픈 소스 하드웨어/소프트웨어 툴킷을 도입하여, 대상 기계와 분리된 크로스-디바이스 개인 에이전트를 가능하게 합니다.

ABSTRACT

UI Agents powered by increasingly performant AI promise to eventually use computers the way that people do - by visually interpreting UIs on screen and issuing appropriate actions to control them (e.g., mouse clicks and keyboard entry). While significant progress has been made on interpreting visual UIs computationally, and in sequencing together steps to complete tasks, controlling UIs is still done with system-specific APIs or VNC connections, which limits the platforms and use cases that can be explored. This paper introduces HIDAgent, an open-source hardware/software toolkit enabling UI agents to operate HID-compatible computing systems by emulating the physical keyboard and mouse. HIDAgent is built using three off-the-shelf components costing less than $30 and a Python library supporting flexible integration. We validated the HIDAgent toolkit by building five diverse use case prototypes across mobile and desktop platforms. As a hardware device, HIDAgent supports research into new interaction scenarios where the agents are separated from the devices they control.

연구 동기 및 목표

  • 제어 장치와 분리된 외부 하드웨어에서 작동하는 "Personal Agents"의 concept를 고취시키고 정의합니다.
  • 모바일 및 데스크톱 플랫폼 전반에서 HID 기반 제어를 가능하게 하는 오픈 소스 하드웨어/소프트웨어 툴킷을 제공합니다.
  • 다양한 플랫폼에 걸친 다양한 프로토타입을 통해 접근 방식의 다양성을 보여주고 새로운 상호 작용 시나리오를 탐색합니다.
  • 하드웨어 분리가 신뢰, 크로스-디바이스 제어, 접근성 사용 사례에 대한 연구를 가능하게 하는 방식을 시연합니다.

제안 방법

  • 제어를 위한 Python 라이브러리와 함께 저가형 하드웨어 번들(RP2040, HDMI-to-USB 컨버터, CH340)을 설명합니다.
  • RP2040에서 HID 이벤트 에뮬레이션을 구현하고 제어 컴퓨터에서 UART를 통해 명령 처리를 수행합니다.
  • 스크린샷 캡처, 마우스/키보드 동작, 보조 유틸리티에 대한 핵심 기능을 포함하는 HIDAgent.py 인터페이스를 제공합니다.
  • 스크린샷 좌표를 HID 좌표로 매핑하고 플랫폼별 설정을 다루기 위한 보정 절차를 제공합니다.
  • 스크립팅용 patch_location/gui_diff 유틸리티와 함께 웹 기반 로그 뷰어를 포함한 디버깅 및 로깅 기능을 제공합니다.
Figure 1. The HIDAgent toolkit is composed of three off-the-self hardware components ( (i) a RP2040 microcontroller, (ii) an HDMI to USB converter, and (iii) a CH340 USB-to-Serial bridge) and a Python software library that makes it easy to develop programs running on a control computer that observe
Figure 1. The HIDAgent toolkit is composed of three off-the-self hardware components ( (i) a RP2040 microcontroller, (ii) an HDMI to USB converter, and (iii) a CH340 USB-to-Serial bridge) and a Python software library that makes it easy to develop programs running on a control computer that observe

실험 결과

연구 질문

  • RQ1별도의 하드웨어 디바이스가 대상에 소프트웨어를 설치하지 않고도 HID-호환 대상에 대해 효과적으로 관찰하고 제어할 수 있는가?
  • RQ2HIDAgent로 어떤 상호 작용 시나리오(예: 크로스-디바이스 제어, 접근성 도구, 데이터 수집)가 실현 가능한가?
  • RQ3모바일 및 데스크톱 플랫폼에서 외부 HID 장치를 통해 작동할 때 UI 에이전트의 성능은 어떠한가?
  • RQ4장치 전반에 HIDAgent를 배치하기 위해 필요한 실용적 보정 및 플랫폼 권한 고려사항은 무엇인가?

주요 결과

  • HIDAgent는 호스트 소프트웨어 설치 없이 화면 픽셀을 스트리밍하고 HID 입력을 발생시켜 HID-호환 장치를 크로스-플랫폼으로 제어할 수 있게 한다.
  • 다섯 가지 다양한 프로토타입은 확장 가능한 UI 에이전트, 범용 데이터 수집, 화면 읽기기 조형의 접근성 브리징, 크로스-디바이스 상호 작용, 유용한 옵저버 모드와 같은 기능을 보여준다.
  • 이 도구킷은 기기 내 처리와 LLM을 활용한 원격 처리를 모두 지원하여 로컬 및 클라우드 보조 UI 에이전트 워크플로의 실행 가능 경로를 보여준다.
  • 보정 절차와 플랫폼별 설정은 iOS, Android, macOS, Windows에서 안정적인 포인터 매핑과 권한을 보장하는 데 필수적이다.
  • 외부 하드웨어 접근 방식은 에이전트가 제어 대상과 분리된 시나리오(당사자 소유 에이전트 도입 및 안전한 제어 맥락 포함)를 연구할 수 있게 한다.
Figure 2. HID space to pixel space calibration is done by observing the cursor’s movement in response to HID mouse move events. In this example, the quite faint cursor of the Apple iPhone screen is shown before (i) and after (ii) . The pixel locations that were automatically detected to have changed
Figure 2. HID space to pixel space calibration is done by observing the cursor’s movement in response to HID mouse move events. In this example, the quite faint cursor of the Apple iPhone screen is shown before (i) and after (ii) . The pixel locations that were automatically detected to have changed

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.