QUICK REVIEW

[논문 리뷰] FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Peng Chu, Haibin Ling|arXiv (Cornell University)|2019. 04. 10.

Video Surveillance and Tracking Methods참고 문헌 55인용 수 27

한 줄 요약

FAMNet는 온라인 다중 객체 추적을 위한 엔드 투 엔드 딥 러닝 프레임워크를 제안하며, 특징 추출, 유사도 추정, 다차원 할당을 동시에 최적화합니다. 모든 구성 요소를 미분 가능하게 하고 지도 학습을 통해 지도할당을 사용하여, MOT2015, MOT2017, KITTI-Car, UA-DETRAC에서 SOTA 성능을 달성하였으며, MOTA 점수는 각각 45.2% (MOT2015), 65.8% (MOT2017), 77.1% (KITTI-Car), 19.8% (UA-DETRAC)입니다.

ABSTRACT

Data association-based multiple object tracking (MOT) involves multiple separated modules processed or optimized differently, which results in complex method design and requires non-trivial tuning of parameters. In this paper, we present an end-to-end model, named FAMNet, where Feature extraction, Affinity estimation and Multi-dimensional assignment are refined in a single network. All layers in FAMNet are designed differentiable thus can be optimized jointly to learn the discriminative features and higher-order affinity model for robust MOT, which is supervised by the loss directly from the assignment ground truth. We also integrate single object tracking technique and a dedicated target management scheme into the FAMNet-based tracking system to further recover false negatives and inhibit noisy target candidates generated by the external detector. The proposed method is evaluated on a diverse set of benchmarks including MOT2015, MOT2017, KITTI-Car and UA-DETRAC, and achieves promising performance on all of them in comparison with state-of-the-arts.

연구 동기 및 목표

추적-검출 파이프라인에서 모듈식이고 비미분 가능한 데이터 할당 방식의 한계를 해결하기 위해, 특히 초모수 조정이 많고 학습 및 추론 간 분포 이탈 문제가 발생하는 문제를 해결하고자 합니다.
특징 추출, 유사도 추정, 다차원 할당을 하나의 미분 가능한 딥 네트워크로 통합하여 임계 작업 전처리를 함께 학습하고자 합니다.
고차원 시간적 및 운동적 맥락을 통합하여, 가림, 빠른 운동, 유사한 외형 등의 어려운 상황에서의 강인성을 향상시키고자 합니다.
단일 객체 추적(SOT) 예측과 전용 타깃 관리 모듈을 통합하여, 잘못된 양성과 잘못된 음성의 수를 줄이고 추적 성능을 향상시키고자 합니다.

제안 방법

FAMNet는 지도 트랙토리로 지도를 받는 특징 표현, 유사도 추정, 다차원 할당(MDA)을 동시에 최적화하는 통합형 엔드 투 엔드 미분 가능한 아키텍처입니다.
유사도 하위 네트워크는 다중 프레임에 걸친 외관 및 운동 특징을 융합하여 고차원 유사도 점수를 계산하여, 이중 프레임 수준의 연결을 넘어서서도 분류 능력을 향상시킵니다.
미분 가능한 MDA 하위 네트워크는 ℓ1 정규화를 적용한 수정된 랭크-1 텐서 근사화를 통해 파wer 반복을 사용하여 전역 할당 과정을 역전파 가능하게 합니다.
전용 CNN 기반 바운딩 박스 추정기(CNN_BBE)는 외부 검출기에서 유입되는 노이즈 있는 후보를 줄이기 위해 검출 품질을 개선합니다.
단일 객체 추적(SOT) 예측은 검출기 출력과 융합되어 MDA를 통해 함께 최적화되어, 놓친 타깃을 복구하고 잘못된 양성을 억제합니다.
모델은 제한된 MOT 데이터셋에서 과적합을 방지하고 일반화 능력을 향상시키기 위해 ImageNet-ILSVRC15 사전 학습 가중치를 사용해 미세 조정합니다.

실험 결과

연구 질문

RQ1특징, 유사도, 할당의 엔드 투 엔드 공동 학습이 모듈식이고 별도 최적화되는 파이프라인보다 온라인 다중 객체 추적 성능을 향상시킬 수 있는가?
RQ2미분 가능한 MDA 레이어를 통해 고차원 시간적 및 운동적 맥락을 통합하면, 붐비거나 빠르게 움직이는 장면에서 강인성이 어떻게 향상되는가?
RQ3SOT 예측과 전용 타깃 관리 모듈을 통합하면 잘못된 양성과 잘못된 음성의 수가 어느 정도 줄어들 수 있는가?
RQ4미분 가능한 MDA를 통해 직접 지도 할당을 학습하면, 히우리스틱 유사도 샘플링에 의존하는 전통적 방법보다 일반화 능력이 향상되는가?
RQ5통합형 미분 가능한 아키텍처가 보행자 및 차량 추적 데이터셋을 포함한 다양한 벤치마크에서 SOTA 방법을 초월할 수 있는가?

주요 결과

MOT2015 벤치마크에서 FAMNet는 미세 조정된 가중치를 사용해 MOTA 45.2%를 달성하였으며, 무작위 초기화에서 학습한 경우(44.1%)와 CNN_BBE를 제거한 아블레이션(40.5%)보다 뚜렷이 뛰어난 성능을 보였습니다.
KITTI-Car에서 FAMNet는 MOTA 77.1%를 기록하여 이전 SOTA 방법인 R1TA(71.2%)를 초월했으며, 온라인 설정에서 오프라인 방법인 NOMT(78.1%)조차도 뛰어넘었습니다.
UA-DETRAC에서 FAMNet는 MOTA 19.8%를 달성하여 다음으로 좋은 방법인 GOG(14.2%)를 뛰어넘었고, 사전 검출기 없이도 사설 검출기 기반 IOU 트래커를 초월했습니다.
아블레이션 연구 결과, SOT 구성 요소를 제거하면 잘못된 음성 수가 300 이상 증가하고 IDS가 12 증가하여, 놓친 타깃 복구 기능에서의 중요성을 입증했습니다.
CNN_BBE를 통한 바운딩 박스 정밀화 도입으로 잘못된 양성 수가 감소하고 추적 안정성이 향상되었으며, 제거했을 경우 잘못된 양성 수가 20% 감소함을 통해 이를 확인할 수 있었습니다.
ImageNet-ILSVRC15 사전 학습 가중치에서 미세 조정을 통해 일반화 능력이 향상되었고, 무작위 초기화에서 학습하는 것보다 MOTA가 10% 이상 향상되었습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.