QUICK REVIEW

[논문 리뷰] Human Body Orientation Estimation using Convolutional Neural Network

Jin-Young Choi, Beom‐Jin Lee|arXiv (Cornell University)|2016. 09. 07.

Video Surveillance and Tracking Methods참고 문헌 14인용 수 25

한 줄 요약

이 논문은 단일 이미지에서 인간의 신체 방향을 추정하기 위한 경량이며 엔드 투 엔드 컷팅 신경망(CNN)을 제안한다. 기준 데이터셋에서 81.58%의 정확도를 달성하고, 자체 구축한 데이터셋에서는 94%의 정확도를 기록하였다. 이 방법은 사용자가 시야에 들어오도록 움직이지 않아도 로봇이 사용자 향해 자동으로 돌아서는 기능을 가능하게 하여 서비스 로봇의 상호작용을 향상시키며, 실제 응용에서 얼굴 검출의 신뢰성을 높인다.

ABSTRACT

Personal robots are expected to interact with the user by recognizing the user's face. However, in most of the service robot applications, the user needs to move himself/herself to allow the robot to see him/her face to face. To overcome such limitations, a method for estimating human body orientation is required. Previous studies used various components such as feature extractors and classification models to classify the orientation which resulted in low performance. For a more robust and accurate approach, we propose the light weight convolutional neural networks, an end to end system, for estimating human body orientation. Our body orientation estimation model achieved 81.58% and 94% accuracy with the benchmark dataset and our own dataset respectively. The proposed method can be used in a wide range of service robot applications which depend on the ability to estimate human body orientation. To show its usefulness in service robot applications, we designed a simple robot application which allows the robot to move towards the user's frontal plane. With this, we demonstrated an improved face detection rate.

연구 동기 및 목표

사용자가 직접 로봇을 향해 놓여져야만 인식이 가능한 서비스 로봇의 한계를 해결하기 위해.
수작업으로 만든 특징과 별도의 분류기 의존하는 이전의 방향 추정 방법의 낮은 성능을 극복하기 위해.
RGB 이미지에서 직접적으로 신체 방향을 회귀하거나 분류할 수 있는 엔드 투 엔드 딥 러닝 시스템을 개발하기 위해.
자원 제약이 있는 로봇 플랫폼에 적합한 실시간이고 견고한 신체 방향 추정을 가능하게 하기 위해.

제안 방법

저자는 모바일 또는 로봇 시스템에서 실시간 추론을 최적화한 경량 CNN 아키텍처를 설계하였다.
네트워크는 단일 RGB 이미지를 입력으로 받아 예측된 방향 클래스(예: 정면, 측면, 뒷면)를 출력한다.
방향 레이블이 포함된 주석이 된 이미지 데이터를 사용하여 지도 학습 방식으로 엔드 투 엔드로 학습된다.
일광 및 자세 변형에 대한 일반화 및 강건성을 향상시키기 위해 데이터 증강 기법이 적용된다.
엔드포인트 배포에 적합하도록 파라미터 수와 FLOPs를 줄이기 위해 아키텍처가 단순화된다.
공개 기준 데이터셋과 함께 사용하기 위해 자체 구축한 데이터셋을 수집하여 다양한 조건에서 성능를 검증하였다.

실험 결과

연구 질문

RQ1복잡한 특징 공학 없이도 경량 CNN이 높은 정확도로 인간의 신체 방향 추정을 달성할 수 있는가?
RQ2기존의 파이프라인 기반 접근 방식과 비교해 복합적인 CNN의 엔드 투 엔드 학습 방식이 강건성과 정확도 측면에서 어떻게 성능을 냈는가?
RQ3실제 로봇 응용에서 빛, 자세, 시점의 변화에 대해 제안된 모델이 얼마나 잘 일반화되는가?
RQ4향상된 방향 추정 성능가 하류 작업, 예를 들어 서비스 로봇의 얼굴 검출에서 측정 가능한 성과 향상에 기여할 수 있는가?

주요 결과

제안된 CNN은 공개 기준 데이터셋에서 81.58%의 top-1 정확도를 달성하였으며, 수작업 특징과 별도의 분류기를 사용한 이전 방법보다 뛰어난 성능을 보였다.
저자들이 자체 구축한 커스텀 데이터셋에서는 94%의 정확도를 기록하여 강력한 일반화 능력과 강건성을 입증하였다.
경량 설계 덕분에 실시간 추론이 가능하여 임베디드 로봇 시스템에의 배포에 적합하다.
로봇 응용 프로토타입에서 로봇이 사용자 향해 사전에 방향을 향하게 함으로써 얼굴 검출 성공률이 크게 향상되었다.
엔드 투 엔드 학습 방식은 수동적인 특징 추출의 필요성을 제거하여 파이프라인을 단순화하고 성능을 향상시켰다.
이 방법은 서비스 로봇이 사용자 향해 자동으로 방향을 틔워 사용자 부담을 줄이고 인간-로봇 상호작용을 향상시킬 수 있게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.