QUICK REVIEW

[論文レビュー] Human Body Orientation Estimation using Convolutional Neural Network

Jin-Young Choi, Beom‐Jin Lee|arXiv (Cornell University)|Sep 7, 2016

Video Surveillance and Tracking Methods参考文献 14被引用数 25

ひとこと要約

本論文は、1枚の画像から人間の身体の向きを推定する軽量でエンド・ツー・エンドの畳み込みニューラルネットワーク（CNN）を提案し、ベンチマークデータセットで81.58%の精度、カスタムデータセットで94%の精度を達成した。この手法により、ユーザーが視界に入らなくてもロボットがユーザーに向かって自発的に向きを向けることができ、実世界の応用における顔検出の信頼性が向上する。

ABSTRACT

Personal robots are expected to interact with the user by recognizing the user's face. However, in most of the service robot applications, the user needs to move himself/herself to allow the robot to see him/her face to face. To overcome such limitations, a method for estimating human body orientation is required. Previous studies used various components such as feature extractors and classification models to classify the orientation which resulted in low performance. For a more robust and accurate approach, we propose the light weight convolutional neural networks, an end to end system, for estimating human body orientation. Our body orientation estimation model achieved 81.58% and 94% accuracy with the benchmark dataset and our own dataset respectively. The proposed method can be used in a wide range of service robot applications which depend on the ability to estimate human body orientation. To show its usefulness in service robot applications, we designed a simple robot application which allows the robot to move towards the user's frontal plane. With this, we demonstrated an improved face detection rate.

研究の動機と目的

サービスロボットが認識するためにはユーザーが直接正面を向いていなければならないという制限を解消すること。
手作業で特徴を設計するのではなく、分類器を別々に使用する従来の方法に依存する低性能な方向推定手法の課題を克服すること。
RGB画像から直接方向を回帰または分類するエンド・ツー・エンドのディープラーニングシステムを構築すること。
リソース制約のあるロボットプラットフォームへのデプロイに適した、リアルタイムで頑健な人体の向き推定を実現すること。

提案手法

著者らは、モバイルまたはロボットシステムでのリアルタイム推論に最適化された軽量なCNNアーキテクチャを設計した。
ネットワークは単一のRGB画像を入力とし、予測された方向クラス（例：正面、側面、背面）を出力する。
方向ラベルが付与された画像データに対して教師あり学習を用いてエンド・ツー・エンドで学習した。
照明やポーズの変動に耐性を持つように、一般化性能を向上させるためにデータ拡張技術を適用した。
エッジデプロイに適したよう、パラメータ数とFLOPsを削減するため、アーキテクチャを単純化した。
公開されたベンチマークデータセットに加え、独自に収集したカスタムデータセットを用いて、多様な条件下での性能を検証した。

実験結果

リサーチクエスチョン

RQ1複雑な特徴工学を用いずに、軽量なCNNが人体の向き推定において高い精度を達成できるか？
RQ2従来のパイプラインベースのアプローチと比較して、CNNのエンド・ツー・エンド学習は、頑健性と精度の面でどのように優れているか？
RQ3提案手法が、実世界のロボットアプリケーションにおける照明、ポーズ、視点の違いに対してどれほど一般化できるか？
RQ4向上した向き推定性能が、顔検出のような下流タスクにおいて測定可能な向上をもたらすか？

主な発見

提案されたCNNは、公開ベンチマークデータセットで81.58%のトップ1精度を達成し、手作業特徴と別個分類器に依存する従来手法を上回った。
著者らが作成したカスタムデータセットでは94%の精度を達成し、優れた一般化性能と頑健性を示した。
軽量な設計により、リアルタイム推論が可能となり、組み込みロボットシステムへのデプロイに適している。
プロトタイプのロボットアプリケーションにおいて、ロボットがユーザーに向かって自発的に向きを向けることで、顔検出の成功率が著しく向上した。
エンド・ツー・エンド学習アプローチにより、手動による特徴抽出の必要がなくなり、パイプラインが簡素化され、性能が向上した。
この手法により、サービスロボットがユーザーに向けて自立的に向きを向けることができ、ユーザーの負担を軽減し、人間-ロボットインタラクションを向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。