[논문 리뷰] FCN-Pose: A Pruned and Quantized CNN for Robot Pose Estimation for Constrained Devices
본 논문은 Raspberry Pi와 같은 제한된 디바이스에서 효율적으로 작동하도록 가지치기(pruning) 및 양자화된 경량 Fully Convolutional Network인 FCN-Pose를 제시하며, 매개변수와 FLOPS를 크게 줄이고 실시간 성능을 향상시킨다.
IoT devices suffer from resource limitations, such as processor, RAM, and disc storage. These limitations become more evident when handling demanding applications, such as deep learning, well-known for their heavy computational requirements. A case in point is robot pose estimation, an application that predicts the critical points of the desired image object. One way to mitigate processing and storage problems is compressing that deep learning application. This paper proposes a new CNN for the pose estimation while applying the compression techniques of pruning and quantization to reduce his demands and improve the response time. While the pruning process reduces the total number of parameters required for inference, quantization decreases the precision of the floating-point. We run the approach using a pose estimation task for a robotic arm and compare the results in a high-end device and a constrained device. As metrics, we consider the number of Floating-point Operations Per Second(FLOPS), the total of mathematical computations, the calculation of parameters, the inference time, and the number of video frames processed per second. In addition, we undertake a qualitative evaluation where we compare the output image predicted for each pruned network with the corresponding original one. We reduce the originally proposed network to a 70% pruning rate, implying an 88.86% reduction in parameters, 94.45% reduction in FLOPS, and for the disc storage, we reduced the requirement in 70% while increasing error by a mere $1\%$. With regard input image processing, this metric increases from 11.71 FPS to 41.9 FPS for the Desktop case. When using the constrained device, image processing augmented from 2.86 FPS to 10.04 FPS. The higher processing rate of image frames achieved by the proposed approach allows a much shorter response time.
연구 동기 및 목표
- 제한된 컴퓨트 및 저장 공간을 가진 IoT/에지 디바이스에서 실시간 로봇 포즈 추정을 촉진한다.
- 키포인트 기반 로봇 포즈 추정을 위한 컴팩트한 CNN 아키텍처(FCN-Pose)를 개발한다.
- 정확도를 보존하면서 모델 크기와 계산 부담을 실질적으로 줄이기 위해 가지치기와 양자화를 적용한다.
- 데스크탑과 제약된 디바이스(Raspberry Pi 3)에서의 성능을 시연한다.
- 포즈 추정 출력에 대한 압축 영향의 질적 및 정량적 평가를 제공한다.
제안 방법
- 10개의 합성곱층, 5개의 최대풀링, 4개의 업샘플링층 및 9개의 출력 분할 맵(8개의 키포인트 + 골격)으로 구성된 경량 Fully Convolutional Network인 FCN-Pose를 설계한다.
- 8개의 키포인트와 대응하는 분할 마스크를 갖는 로봇팔 포즈 데이터셋에서 훈련한다; 과적합을 줄이기 위해 회전, 패딩 등의 데이터 증강을 사용한다.
- 필터 순위(L1-노름)에 의한 가지치기를 적용하여 불필요한 필터를 제거하고 재훈련한다.
- 저장을 줄이기 위해 FP32에서 FP16으로 포스트-트레이닝 양자화를 적용한다.
- 먼저 가지치기, 재훈련 후 양자화를 통해 엔드-투-엔드 압축을 수행한다; 양자화 이후 추가 훈련은 없다.
- 포스트-프로세싱은 분할 영역으로부터 키포인트 좌표를 도출하기 위해 확장 클러스터링(Expansion Clustering) 기반 정제를 사용한다.
실험 결과
연구 질문
- RQ1제약된 자원 하에서 FCN-Pose가 로봇 팔의 키포인트를 정확하게 예측할 수 있는가?
- RQ2가지치기와 양자화가 데스크탑과 제약된 디바이스에서 키포인트 검출 정확도(PCK)와 처리 속도에 어떤 영향을 미치는가?
- RQ3압축 후 매개변수 수, FLOPs, 디스크 저장소, 포즈 추정 오차 간의 트레이드오프는 무엇인가?
주요 결과
| Folder ID | PCK@0.5 | Inference Time (s) | FPS (CPU) |
|---|---|---|---|
| 0 | 0.997 | 0.088 | 11.346 |
| 1 | 0.997 | 0.085 | 11.731 |
| 2 | 0.999 | 0.084 | 11.825 |
| 3 | 0.998 | 0.085 | 11.754 |
| 4 | 0.996 | 0.084 | 11.899 |
- FCN-Pose는 131,705개의 매개변수와 1.7 MB의 저장소를 가지며 일반적인 FCN 스타일 네트워크보다 현저히 작다.
- 70% 가지치기로 매개변수는 88.86% 감소, FLOPS는 94.45% 감소, 저장소는 70% 감소하였으며 오차는 약 1% 증가했다.
- 데스크탑 CPU에서 평균 PCK@0.5 ≈ 0.997 및 평균 CPU FPS ≈ 11.711(5-fold 교차검증당).
- 제약된 Raspberry Pi 3에서 압축 후 입력 이미지 처리 FPS가 2.86에서 10.04로 증가했다.
- 가지치기 및 양자화된 FCN-Pose는 제약된 디바이스에서 현저히 향상된 실시간 성능을 제공하며 정확도 손실은 최소화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.