QUICK REVIEW

[논문 리뷰] Markerless tracking of user-defined features with deep learning

Alexander Mathis, Pranav Mamidanna|arXiv (Cornell University)|2018. 04. 09.

Face and Expression Recognition참고 문헌 3인용 수 31

한 줄 요약

이 논문은 전이 학습을 활용해 극히 적은 수의 레이블 데이터로도 사용자가 정의한 신체 부위를 반사 마커 없이 동물 행동 영상에서 추적할 수 있는 딥 러닝 기반 방법인 DeepLabCut을 소개한다. 단지 약 200장의 학습 프레임만으로도 인간 수준의 정확도(루트 평균 제곱 오차 ≈ 0.5–1.0 픽셀)를 달성하여 쥐의 손 뻗기, 망고비린내 배출, 냄새 자국 추적과 같은 다양한 종과 행동에서 정밀하고 자동화된 자세 추정을 가능하게 한다.

ABSTRACT

Quantifying behavior is crucial for many applications in neuroscience. Videography provides easy methods for the observation and recording of animal behavior in diverse settings, yet extracting particular aspects of a behavior for further analysis can be highly time consuming. In motor control studies, humans or other animals are often marked with reflective markers to assist with computer-based tracking, yet markers are intrusive (especially for smaller animals), and the number and location of the markers must be determined a priori. Here, we present a highly efficient method for markerless tracking based on transfer learning with deep neural networks that achieves excellent results with minimal training data. We demonstrate the versatility of this framework by tracking various body parts in a broad collection of experimental settings: mice odor trail-tracking, egg-laying behavior in drosophila, and mouse hand articulation in a skilled forelimb task. For example, during the skilled reaching behavior, individual joints can be automatically tracked (and a confidence score is reported). Remarkably, even when a small number of frames are labeled ($\approx 200$), the algorithm achieves excellent tracking performance on test frames that is comparable to human accuracy.

연구 동기 및 목표

반사 마커가 없이 사용자가 정의한 신체 부위를 비침습적으로 추적할 수 있는 유연한 방법을 개발하기 위해.
사용자 정의된 특징가 필요하고 침습적인 마커 기반 시스템의 한계를 극복하기 위해.
전이 학습을 통해 소규모 데이터셋으로도 딥 네트워크를 훈련시켜 고정밀 자세 추정을 실현하기 위해.
신경과학 분야에서 자동화된 행동 정량화를 위한 일반화 가능하고 오픈소스 도구 백업을 제공하기 위해.
단지 약 200장의 레이블 프레임만으로도 인간 애너테이션 수준의 성능을 달성하기 위해.

제안 방법

사용자가 레이블링한 특정 신체 부위의 이미지를 기반으로 사전 훈련된 딥 네트워크(DeeperCut 기반)를 미세 조정하는 전이 학습 기법을 사용한다.
각 신체 부위별로 별도의 리더아웃 레이어를 사용하여 각 픽셀에서 해당 부위의 위치에 대한 확률을 예측하고, 국소화를 위한 스코어맵을 생성한다.
L2 손실과 공간적으로 제약된 회귀 손실을 조합하여 특징 추출 가중치와 리더아웃 레이어 가중치를 동시에 조정한다.
이미지 크기 조정(50–150% 범위)을 통한 데이터 증강을 적용하여 소량의 수동으로 레이블링된 프레임에서 엔드 투 엔드로 네트워크를 훈련시킨다.
학습 후 모델은 스코어맵의 최고점으로서 신체 부위의 위치를 예측하며, 실제값과의 학습된 대응관계를 통해 정밀도를 향상시킨다.
각 신체 부위의 스코어맵에서 局부 최댓값을 추출함으로써 다중 동물 추적을 지원한다.

실험 결과

연구 질문

RQ1전이 학습을 활용한 딥 러닝이 극소수의 레이블 프레임만으로도 고정밀 마커 없는 자세 추정을 달성할 수 있는가?
RQ2사전 마커 배치 없이도 다양한 동물 종과 행동에 일반화 가능한가?
RQ3소규모 학습 데이터에서 인간 애너테이션 정확도와 비교해 모델 성능는 어떻게 되는가?
RQ4복잡한 행동에서 미세 관절을 포함한 다수의 신체 부위를 자동으로 감지하고 추적할 수 있는가?
RQ5스페이셜 레디우스 에프릴리프 및 스케일 팩터와 같은 하이퍼파라미터가 모델 성능에 미치는 영향은 무엇인가?

주요 결과

단지 약 200장의 레이블된 학습 프레임만으로도 테스트 프레임에서 인간 수준의 정확도(루트 평균 제곱 오차 ≈ 0.5–1.0 픽셀)를 달성하여 인간 애너테이션과 유사한 성능을 보였다.
쥐의 손 뻗기 작업에서 관절 단위의 정확한 추적 성능을 확보하였으며, 각 예측에 대해 신뢰도 점수를 제공하였다.
쥐의 냄새 자국 추적, 망고비린내 배출, 숙련된 앞다리 운동 등 다양한 실험 환경에서도 성능이 뛰어나게 유지되었다.
교차 검증 결과, 에프릴리프를 넓게 조정해도 성능 향상이 없었지만, 매우 작은 에프릴리프 값에서는 성능이 급격히 저하되었다.
스코어맵에서 局부 최댓값을 감지함으로써 다중 동물 상황에서도 정확한 자세 추정이 가능했다.
자르고 난 손 이미지의 t-SNE 시각화 결과, 레이블링된 신체 부위 구성과 대응되는 명확하고 해석 가능한 자세 클러스터가 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.