QUICK REVIEW

[論文レビュー] Markerless tracking of user-defined features with deep learning

Alexander Mathis, Pranav Mamidanna|arXiv (Cornell University)|Apr 9, 2018

Face and Expression Recognition参考文献 3被引用数 31

ひとこと要約

この論文では、転移学習を用いて最小限のラベル付きデータで、ユーザーが定義した身体部位のマーカーレス追跡を可能にする深層学習ベースの手法、DeepLabCutを紹介する。わずか約200フレームのトレーニングデータで人間レベルの精度（RMSE ≈ 0.5–1.0 px）を達成し、マウスの伸ばし行動、ドーパミルの産卵行動、臭覚トレース追跡など、多様な種や行動において高精度で自動化されたポーズ推定を実現する。

ABSTRACT

Quantifying behavior is crucial for many applications in neuroscience. Videography provides easy methods for the observation and recording of animal behavior in diverse settings, yet extracting particular aspects of a behavior for further analysis can be highly time consuming. In motor control studies, humans or other animals are often marked with reflective markers to assist with computer-based tracking, yet markers are intrusive (especially for smaller animals), and the number and location of the markers must be determined a priori. Here, we present a highly efficient method for markerless tracking based on transfer learning with deep neural networks that achieves excellent results with minimal training data. We demonstrate the versatility of this framework by tracking various body parts in a broad collection of experimental settings: mice odor trail-tracking, egg-laying behavior in drosophila, and mouse hand articulation in a skilled forelimb task. For example, during the skilled reaching behavior, individual joints can be automatically tracked (and a confidence score is reported). Remarkably, even when a small number of frames are labeled ($\approx 200$), the algorithm achieves excellent tracking performance on test frames that is comparable to human accuracy.

研究の動機と目的

反射マーカーを用いずに、ユーザーが定義した身体部位を動物行動動画で非侵襲的かつ柔軟に追跡する手法を開発すること。
マーカーに基づくシステムの限界を克服し、事前に定義された特徴を必要とせず、侵襲的でない方法を提供すること。
転移学習を用いて小規模なデータセットでトレーニングされた深層ニューラルネットワークにより、高精度なポーズ推定を実現すること。
神経科学分野における自動行動定量に適した汎用的でオープンソースのツールボックスを提供すること。
わずか約200フレームのラベル付きデータで、人間のアノテーションと同等の性能を達成すること。

提案手法

本手法は、ユーザーがラベルを付与した画像に特化した、事前に学習済みの深層ニューラルネットワーク（DeeperCutに基づく）を微調整することで、転移学習を用いる。
各身体部位ごとに独立した読み出し層を設け、各画素における部位の位置の確率を予測し、局所化のためのスコアマップを生成する。
特徴抽出の重みと読み出し層の重みを、L2損失と空間的に制約された回帰損失の組み合わせにより同時に最適化する。
画像のリスケーリング（50–150%の範囲）を用いたデータ拡張を伴い、手動でラベル付けされた少数のフレーム上でエンドツーエンドでネットワークをトレーニングする。
トレーニング後、スコアマップのピークとして身体部位の位置を予測し、真値との間の学習済み対応関係を用いて精緻化する。
各身体部位のスコアマップにおける局所的最大値を抽出することで、複数動物の追跡をサポートする。

実験結果

リサーチクエスチョン

RQ1転移学習を用いた深層学習が、わずか少数のラベル付きフレームでのみ、高精度なマーカーレスポーズ推定を達成できるか？
RQ2事前にマーカーを配置する必要がなく、多様な動物種や行動に一般化可能なか？
RQ3特に少量のトレーニングデータで、モデルの性能が人間のアノテーション精度と比較してどの程度か？
RQ4複雑な行動において、微細な関節を含む複数の身体部位を自動で検出し追跡できるか？
RQ5ハイパーパrameter（空間的半径εとスケーリング係数）がモデル性能に与える影響は？

主な発見

わずか約200フレームのラベル付きトレーニングデータで、テストフレームにおいて人間レベルの精度（RMSE ≈ 0.5–1.0 px）を達成し、人間のアノテーションと同等の性能を示した。
マウスの手の伸ばし行動において、関節の個々の部位を正確に追跡でき、各予測に対して信頼度スコアが報告された。
マウスの臭覚トレース追跡、ドーパミルの産卵行動、熟練した前肢行動の各実験設定においても、性能が安定した。
交差検証の結果、εを広く変化させても性能向上が見られなかったが、非常に小さなε値では性能が急激に低下した。
スコアマップにおける局所的最大値を検出することで、複数動物の状況でも高精度なポーズ推定が可能になった。
クロップドされた手の画像のt-SNE可視化により、ラベル付けされた身体部位の配置に対応する明確で解釈可能なポージングクラスタが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。