QUICK REVIEW

[論文レビュー] A Convolutional Neural Network based Live Object Recognition System as Blind Aid

Kedar Potdar, Chinmay D. Pai|arXiv (Cornell University)|Nov 26, 2018

Advanced Neural Network Applications参考文献 4被引用数 24

ひとこと要約

本論文では、カメラとポータブルコンピューティングを用いて、ImageNetのオブジェクトをYOLOにインspiredしたモデルとELU活性化関数を用いて、視覚障害者向けのリアルタイムでCNNベースのライブオブジェクト認識システムを提示している。システムは200個のImageNetカテゴリで50 mAP、トップ1精度70.6%を達成し、リアルタイムでの環境認識を促進するための音声またはブレール出力を提供する。

ABSTRACT

This paper introduces a live object recognition system that serves as a blind aid. Visually impaired people heavily rely on their other senses such as touch and auditory signals for understanding the environment around them. The act of knowing what object is in front of the blind person without touching it (by hand or some other tool) is very difficult. In some cases, the physical contact between the person and object can be dangerous, and even lethal. This project employs a Convolutional Neural Network for recognition of pre-trained objects on the ImageNet dataset. A camera, aligned with the system's predetermined orientation serves as input to the computer system, which has the object recognition Neural Network deployed to carry out real-time object detection. Output from the network can then be parsed to present to the visually impaired person either in the form of audio or Braille text.

研究の動機と目的

視覚障害者が物理的接触なしにオブジェクトを識別できる、リアルタイムで持ち運び可能なオブジェクト認識システムを開発すること。
コンピュータビジョンとディープラーニングを用いて、接触を伴わない非接触オブジェクト検出を可能にすることで、触覚的・聴覚的ヒントに依存するのを軽減すること。
ポータブルハードウェアに軽量で効率的なCNNモデルをデプロイし、最小限の計算オーバーヘッドでリアルタイム推論を実現すること。
音声またはブレールテキストによるアクセス可能な出力を提供し、環境認識と安全性を向上させること。
複雑なシーン、特にごみや混雑した屋内環境を含む、現実世界のシーンでのシステム性能を評価すること。

提案手法

システムはカメラを入力として使用し、詳細と計算効率のバランスを取るために画像を416×416ピクセルにリサイズする。
YOLOにインspiredしたCNNアーキテクチャを採用し、最大プーリングを伴う7層の畳み込み層に続き、分類のための全結合層を設ける。
学習速度と精度の向上を図るため、指数関数的線形ユニット（ELU）を活性化関数として使用し、f(x) = x（x ≥ 0のとき）およびa(exp(x)−1)（それ以外のとき）で定義される。
オブジェクト検出の出力を[0,1]に正規化することで、計算複雑性を低減し、推論速度を向上させる。
モデルはImageNet 1000クラスデータセットで事前学習され、境界ボックス回帰を用いたオブジェクト検出に微調整される。
出力はJSON形式で生成され、ユーザーのフィードバック用に音声またはブレールにマッピングされる。

実験結果

リサーチクエスチョン

RQ1軽量なCNNベースのシステムは、視覚障害者向けにポータブルハードウェア上でリアルタイムのオブジェクト検出を達成できるか？
RQ2道路や屋内環境など、複雑またはごみの多いシーンで、システムのオブジェクト検出精度はどの程度か？
RQ3ELU活性化関数とネットワーク深さの低減を用いる場合、モデルの精度と推論速度のトレードオフはどのようなものか？
RQ4システムは物理的接触なしにどれほど多くのオブジェクトを特定できるか。これにより、安全リスクがどれほど軽減されるか？
RQ5現実世界の設定において、小さなオブジェクトや部分的にしか見えないオブジェクトを、システムはどれほど効果的に区別できるか？

主な発見

システムはImageNet 200クラス検証データセットで50%の平均平均精度（mAP）を達成し、多様なシーンにおける強力な検出性能を示した。
ImageNet検証データセットではトップ1精度が70.6%に達し、一般的なオブジェクトの信頼性の高い分類を示した。
単一評価アーキテクチャのおかげで推論時間が短く、ポータブルデバイス上でのリアルタイムオブジェクト検出が可能になった。
道路の交差点のような混雑したシーンでも、人物や車両といった複数のオブジェクトを正しく検出できた。部分的遮蔽がある場合でも同様に機能した。
屋内での検出性能は一貫していたが、小さなオブジェクトや低解像度のオブジェクトでは精度が低下し、バスをトラックと誤分類する事例も見られた。
システムの性能は計算制約によって制限されており、推論時間の増加を犠牲にすれば、精度の向上が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。