[논문 리뷰] FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking
FAMNet는 온라인 다중 객체 추적을 위한 엔드 투 엔드 딥 러닝 프레임워크를 제안하며, 특징 추출, 유사도 추정, 다차원 할당을 동시에 최적화합니다. 모든 구성 요소를 미분 가능하게 하고 지도 학습을 통해 지도할당을 사용하여, MOT2015, MOT2017, KITTI-Car, UA-DETRAC에서 SOTA 성능을 달성하였으며, MOTA 점수는 각각 45.2% (MOT2015), 65.8% (MOT2017), 77.1% (KITTI-Car), 19.8% (UA-DETRAC)입니다.
Data association-based multiple object tracking (MOT) involves multiple separated modules processed or optimized differently, which results in complex method design and requires non-trivial tuning of parameters. In this paper, we present an end-to-end model, named FAMNet, where Feature extraction, Affinity estimation and Multi-dimensional assignment are refined in a single network. All layers in FAMNet are designed differentiable thus can be optimized jointly to learn the discriminative features and higher-order affinity model for robust MOT, which is supervised by the loss directly from the assignment ground truth. We also integrate single object tracking technique and a dedicated target management scheme into the FAMNet-based tracking system to further recover false negatives and inhibit noisy target candidates generated by the external detector. The proposed method is evaluated on a diverse set of benchmarks including MOT2015, MOT2017, KITTI-Car and UA-DETRAC, and achieves promising performance on all of them in comparison with state-of-the-arts.
연구 동기 및 목표
- 추적-검출 파이프라인에서 모듈식이고 비미분 가능한 데이터 할당 방식의 한계를 해결하기 위해, 특히 초모수 조정이 많고 학습 및 추론 간 분포 이탈 문제가 발생하는 문제를 해결하고자 합니다.
- 특징 추출, 유사도 추정, 다차원 할당을 하나의 미분 가능한 딥 네트워크로 통합하여 임계 작업 전처리를 함께 학습하고자 합니다.
- 고차원 시간적 및 운동적 맥락을 통합하여, 가림, 빠른 운동, 유사한 외형 등의 어려운 상황에서의 강인성을 향상시키고자 합니다.
- 단일 객체 추적(SOT) 예측과 전용 타깃 관리 모듈을 통합하여, 잘못된 양성과 잘못된 음성의 수를 줄이고 추적 성능을 향상시키고자 합니다.
제안 방법
- FAMNet는 지도 트랙토리로 지도를 받는 특징 표현, 유사도 추정, 다차원 할당(MDA)을 동시에 최적화하는 통합형 엔드 투 엔드 미분 가능한 아키텍처입니다.
- 유사도 하위 네트워크는 다중 프레임에 걸친 외관 및 운동 특징을 융합하여 고차원 유사도 점수를 계산하여, 이중 프레임 수준의 연결을 넘어서서도 분류 능력을 향상시킵니다.
- 미분 가능한 MDA 하위 네트워크는 ℓ1 정규화를 적용한 수정된 랭크-1 텐서 근사화를 통해 파wer 반복을 사용하여 전역 할당 과정을 역전파 가능하게 합니다.
- 전용 CNN 기반 바운딩 박스 추정기(CNN_BBE)는 외부 검출기에서 유입되는 노이즈 있는 후보를 줄이기 위해 검출 품질을 개선합니다.
- 단일 객체 추적(SOT) 예측은 검출기 출력과 융합되어 MDA를 통해 함께 최적화되어, 놓친 타깃을 복구하고 잘못된 양성을 억제합니다.
- 모델은 제한된 MOT 데이터셋에서 과적합을 방지하고 일반화 능력을 향상시키기 위해 ImageNet-ILSVRC15 사전 학습 가중치를 사용해 미세 조정합니다.
실험 결과
연구 질문
- RQ1특징, 유사도, 할당의 엔드 투 엔드 공동 학습이 모듈식이고 별도 최적화되는 파이프라인보다 온라인 다중 객체 추적 성능을 향상시킬 수 있는가?
- RQ2미분 가능한 MDA 레이어를 통해 고차원 시간적 및 운동적 맥락을 통합하면, 붐비거나 빠르게 움직이는 장면에서 강인성이 어떻게 향상되는가?
- RQ3SOT 예측과 전용 타깃 관리 모듈을 통합하면 잘못된 양성과 잘못된 음성의 수가 어느 정도 줄어들 수 있는가?
- RQ4미분 가능한 MDA를 통해 직접 지도 할당을 학습하면, 히우리스틱 유사도 샘플링에 의존하는 전통적 방법보다 일반화 능력이 향상되는가?
- RQ5통합형 미분 가능한 아키텍처가 보행자 및 차량 추적 데이터셋을 포함한 다양한 벤치마크에서 SOTA 방법을 초월할 수 있는가?
주요 결과
- MOT2015 벤치마크에서 FAMNet는 미세 조정된 가중치를 사용해 MOTA 45.2%를 달성하였으며, 무작위 초기화에서 학습한 경우(44.1%)와 CNN_BBE를 제거한 아블레이션(40.5%)보다 뚜렷이 뛰어난 성능을 보였습니다.
- KITTI-Car에서 FAMNet는 MOTA 77.1%를 기록하여 이전 SOTA 방법인 R1TA(71.2%)를 초월했으며, 온라인 설정에서 오프라인 방법인 NOMT(78.1%)조차도 뛰어넘었습니다.
- UA-DETRAC에서 FAMNet는 MOTA 19.8%를 달성하여 다음으로 좋은 방법인 GOG(14.2%)를 뛰어넘었고, 사전 검출기 없이도 사설 검출기 기반 IOU 트래커를 초월했습니다.
- 아블레이션 연구 결과, SOT 구성 요소를 제거하면 잘못된 음성 수가 300 이상 증가하고 IDS가 12 증가하여, 놓친 타깃 복구 기능에서의 중요성을 입증했습니다.
- CNN_BBE를 통한 바운딩 박스 정밀화 도입으로 잘못된 양성 수가 감소하고 추적 안정성이 향상되었으며, 제거했을 경우 잘못된 양성 수가 20% 감소함을 통해 이를 확인할 수 있었습니다.
- ImageNet-ILSVRC15 사전 학습 가중치에서 미세 조정을 통해 일반화 능력이 향상되었고, 무작위 초기화에서 학습하는 것보다 MOTA가 10% 이상 향상되었습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.