[논문 리뷰] TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision In-Sensor for Gaze Estimation
이 논문은 소니 IMX500 AI-인-센서 플랫폼에서 초저전력, 초고속 엣지 추론을 위한 초소형, 완전 양자화된 2D 시선 추정 모델인 TinyTracker를 제안한다. 완전 양자화 시 0.16 cm의 정확도 손실만으로도 41배의 모델 크기 감소(600KB)를 달성하여 19ms 내로 종단 간 시선 추정을 구현하고 총 에너지 소비가 4.9 mJ에 불과하며, 속도와 에너지 효율성에서 Coral Micro와 Spresense를 뛰어넘는 성능을 보였다.
Intelligent edge vision tasks encounter the critical challenge of ensuring power and latency efficiency due to the typically heavy computational load they impose on edge platforms.This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. The overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ)
연구 동기 및 목표
- 배터리 구동, 실시간 응용 프로그램에 특화된 엣지 비전 AI의 전력 및 지연 효율성 문제를 해결한다.
- 종단 간 비전 워크로드에 대해 최신 상용 엣지 플랫폼인 소니 IMX500, 스프레센스, 코랄 마이크로를 평가하고 비교한다.
- 극한의 자원 제약 조건에서도 높은 정확도를 유지하는 초효율적, 1MB 이하의 모델을 설계한다.
- IMX500와 같은 AI-인-센서 플랫폼에서 종단 간 밀리초 수준의 추론이 가능한지를 입증한다.
- 모델 압축 및 하드웨어 활용 최적화를 통해 엣지 비전 AI에서 전례 없는 전력 및 속도 효율성을 달성한다.
제안 방법
- 이동 네트워크 V3 기반의 소형 컨volutional 네트워크인 TinyTracker를 개발하여 파라미터와 MAC 연산을 감소시켰으며, 엣지 호환성을 위해 다중 입력(얼굴, 눈, 격자)을 단일 얼굴 이미지와 격자 임베딩으로 대체하였다.
- 공간적 위치 정보를 유지하기 위해 얼굴 좌표 임베딩을 입력에 통합하여 별도의 얼굴 격자 입력이 필요 없도록 하였다.
- 정확도를 유지하면서 크기와 에너지 소비를 최소화하기 위해 모델에 완전 양자화(INT8)를 적용하였다.
- 소니 IMX500에 TinyTracker를 구현하여 센서 내부의 AI 가속기 기능을 활용해 이미지를 직접 센서에서 처리함으로써 데이터 이동과 지연을 최소화하였다.
- 세 플랫폼을 대상으로 종단 간 프로파일링을 수행하여 이미지 캡처부터 예측까지의 추론 시간, 에너지 소비, 전력 효율성을 측정하였다.
- iTracker 벤치마크 프로토콜을 따르며, 표준화된 평가 지표로 시선 예측 오차(cm), 추론 지연(ms), 추론 당 에너지(mJ)를 사용하였다.
실험 결과
연구 질문
- RQ1엄격한 전력 및 지연 제약 조건을 가진 엣지 AI 플랫폼에서 작동하는 고압축, 완전 양자화된 비전 모델이 높은 정확도를 달성할 수 있는가?
- RQ2IMX500의 센서 내부 AI 처리 방식은 전통적인 엣지 플랫폼인 코랄 마이크로와 스프레센스에 비해 종단 간 지연과 에너지 효율성 측면에서 어떻게 비교되는가?
- RQ3모델 압축과 양자화를 통해 모델 크기와 에너지 소비를 얼마나 줄일 수 있으며, 이로 인해 시선 추정의 정확도 저하가 얼마나 발생하는가?
- RQ4외부 TPU나 MCU 기반 시스템과 비교했을 때 센서 통합 AI 가속기로 추론을 오프로드하면 성능에 어떤 영향을 미치는가?
- RQ5입력에 공간 격자 임베딩을 통합함으로써 소형 모델에서 시선 추정 정밀도가 어떻게 향상되는가?
주요 결과
- TinyTracker는 iTracker 대비 약 24MB에서 600KB로 41배의 모델 크기 감소를 달성했으며, 완전 양자화 시에도 시선 추정 오차가 0.16 cm 뿐만 증가하였다.
- 소니 IMX500에서 종단 간 시스템은 총 19ms의 지연을 기록하였으며, 센서 읽기/처리/전송에 17.9ms, 추론에 0.86ms가 소요되었다.
- 종단 간 시스템의 총 에너지 소비는 4.9 mJ였고, 추론 과정에서 소비된 에너지는 단 0.06 mJ에 불과하여 코랄 마이크로 대비 7배 더 전력 효율적이었다.
- 종단 간 평가에서 IMX500는 속도 측면에서 코랄 마이크로(34.4ms) 대비 1.7배 빠르고, 에너지 효율성 측면에서 20배 뛰어나 4.9 mJ 대비 34.2 mJ의 소비를 기록하였다.
- IMX500는 73.23 MAC/사이클의 효율성을 기록하여 스프레센스(0.20 MAC/사이클)와 코랄 마이크로(8.69 MAC/사이클)를 크게 앞서며 하드웨어 활용 효율성이 뛰어나다는 것을 입증하였다.
- 입력에 격자 임베딩을 추가함으로써 정밀도가 0.5 cm 향상되었으며, 이는 공간적 위치 정보가 소형 모델에서 시선 추정 정확도를 향상시킨다는 것을 확인시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.