QUICK REVIEW

[論文レビュー] Automatically identifying, counting, and describing wild animals in camera-trap images with deep learning

Mohammed Sadegh Norouzzadeh, Anh‐Tu Nguyen|arXiv (Cornell University)|Mar 16, 2017

Advanced Image and Video Retrieval Techniques参考文献 26被引用数 12

ひとこと要約

本論文では、Snapshot Serengetiデータセットのカメラトラップ画像から48種の野生動物の種別、個体数カウント、行動記述を自動で行うため、ResNet-152と転移学習を用いた深層学習システムを提案する。モデルは種別で93.8％の正確性を達成し、320万枚の画像から成るデータセットの99.3％を96.6％の正確性で自動ラベル付け可能となり、人的ラベル付け作業に17,000時間以上を削減する。

ABSTRACT

Having accurate, detailed, and up-to-date information about the location and behavior of animals in the wild would revolutionize our ability to study and conserve ecosystems. We investigate the ability to automatically, accurately, and inexpensively collect such data, which could transform many fields of biology, ecology, and zoology into "big data" sciences. Motion sensor "camera traps" enable collecting wildlife pictures inexpensively, unobtrusively, and frequently. However, extracting information from these pictures remains an expensive, time-consuming, manual task. We demonstrate that such information can be automatically extracted by deep learning, a cutting-edge type of artificial intelligence. We train deep convolutional neural networks to identify, count, and describe the behaviors of 48 species in the 3.2-million-image Snapshot Serengeti dataset. Our deep neural networks automatically identify animals with over 93.8% accuracy, and we expect that number to improve rapidly in years to come. More importantly, if our system classifies only images it is confident about, our system can automate animal identification for 99.3% of the data while still performing at the same 96.6% accuracy as that of crowdsourced teams of human volunteers, saving more than 8.4 years (at 40 hours per week) of human labeling effort (i.e. over 17,000 hours) on this 3.2-million-image dataset. Those efficiency gains immediately highlight the importance of using deep neural networks to automate data extraction from camera-trap images. Our results suggest that this technology could enable the inexpensive, unobtrusive, high-volume, and even real-time collection of a wealth of information about vast numbers of animals in the wild.

研究の動機と目的

カメラトラップ画像における野生動物の種別、個体数カウント、行動記述を自動化すること。
人的ボランティアや専門家による手作業ラベル付けの時間とコストを削減すること。
深層学習がSnapshot Serengetiのような大規模な野生生物モニタリングデータセットにスケーリング可能であることを示すこと。
重み付き損失、オーバーサンプリング、強調サンプリングを用いて、野生生物データセットのクラス不均衡問題に対処すること。
自動画像解析により、リアルタイムまたはニアリアルタイムの生態学的モニタリングを可能にすること。

提案手法

320万枚のラベル付きカメラトラップ画像を含むSnapshot Serengetiデータセット上で、深層畳み込みニューラルネットワーク（ResNet-152）を学習した。
ImageNetで事前学習された重みを用いた転移学習により、野生動物種への一般化性能を向上させた。
1枚の入力画像から同時に種別、個体数、行動を予測するマルチタスク学習フレームワークを採用した。
信頼度のしきい値を適用して、高信頼度の予測のみをフィルタリングし、人的レビューの対象をデータセット全体の0.7％にまで削減した。
データオーグメンテーションとクラス不均衡の緩和技術（重み付き損失、オーバーサンプリング、強調サンプリング）を実装した。
ソフトマックス出力層を用い、モデルの信頼度スコアとしてクラス確率を解釈した。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは、カメラトラップ画像から野生動物の種別と個体数を人的正確性に近い水準で識別・カウントできるか？
RQ2深層学習は、大規模な野生生物モニタリングにおいて、人的労働をどの程度自動化できるか？
RQ3重み付き損失、オーバーサンプリング、強調サンプリングといった異なる戦略は、不均衡なデータセットにおけるレアな動物種のパフォーマンス向上にどの程度効果的か？
RQ4部分的可視、低照度、遠く離れた動物などの困難な画像条件に対しても、モデルは一般化できるか？
RQ5モデルの信頼度に基づいて予測をフィルタリングする際の、自動化カバレッジと正確性のトレードオフは何か？

主な発見

深層学習モデルは、Snapshot Serengetiデータセットに含まれる48種の野生動物の種別において、トップ1正確度93.8％を達成した。
高信頼度予測に限定してフィルタリングすることで、320万枚の画像から成るデータセットの99.3％を自動ラベル付け可能であり、正確度は96.6％を維持した。
人的ラベル付け作業に要する推定時間は17,000時間以上（40時間労働週で8.4年以上分）削減された。
強調サンプリング法によりトップ5正確度は98.2％まで向上し、ベースラインをわずかに上回り、特にレアクラス（ニホンザル、ゾリラなど）のパフォーマンスが最大60％向上した。
重み付き損失とオーバーサンプリングは、稀なクラスの正確度を向上させた（例：シロナマズクの正確度がほぼ0％から80％に上昇）。ただし、全体のトップ1正確度は重み付き損失が最も優れていた。
遠く離れた、部分的にしか見えない、または低照度の画像に対してモデルの性能が著しく低下し、イベントレベルのラベル付けに起因するノイズにより、一部のイベントが誤分類された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。