QUICK REVIEW

[논문 리뷰] Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking

Xiaolong Jiang, Peizhao Li|arXiv (Cornell University)|2019. 07. 11.

Video Surveillance and Tracking Methods참고 문헌 88인용 수 27

한 줄 요약

이 논문은 온라인 다중객체 추적을 위한 엔드 투 엔드 그래프 신경망(GNN)-기반 프레임워크를 제안한다. 이는 외관 및 운동 특징을 동시에 학습하여 유사도 점수를 계산하고, GNN을 사용해 최대 가중 이분 매칭 문제를 미분 가능하고 확장 가능한 방식으로 해결한다. 이 방법은 MOT17 및 MOT15 벤치마크에서 각각 45.4% MOTA와 27.8% IDF1의 최신 기준 성능을 달성하며, 객체 생성/소멸에 대한 강건성 향상과 하이퍼파ram터 조정의 필요성 감소를 입증한다.

ABSTRACT

In this work, we present an end-to-end framework to settle data association in online Multiple-Object Tracking (MOT). Given detection responses, we formulate the frame-by-frame data association as Maximum Weighted Bipartite Matching problem, whose solution is learned using a neural network. The network incorporates an affinity learning module, wherein both appearance and motion cues are investigated to encode object feature representation and compute pairwise affinities. Employing the computed affinities as edge weights, the following matching problem on a bipartite graph is resolved by the optimization module, which leverages a graph neural network to adapt with the varying cardinalities of the association problem and solve the combinatorial hardness with favorable scalability and compatibility. To facilitate effective training of the proposed tracking network, we design a multi-level matrix loss in conjunction with the assembled supervision methodology. Being trained end-to-end, all modules in the tracker can co-adapt and co-operate collaboratively, resulting in improved model adaptiveness and less parameter-tuning efforts. Experiment results on the MOT benchmarks demonstrate the efficacy of the proposed approach.

연구 동기 및 목표

수작업으로 설계된 데이터 연동 히우리스틱에 의존하고 확장성과 낮은 객체 생성/소멸에 대한 민감성으로 인해 떨어지는 전통적 온라인 다중객체 추적 방법의 한계를 해결한다.
온라인 MOT에서 데이터 연동의 조합적 난이도와 변동하는 카디널리티 문제를 해결하기 위해 고정된 선형 할당 대신 학습 가능한, 미분 가능한 최적화 모듈을 도입한다.
전체 데이터 연동 파이프라인의 엔드 투 엔드 학습을 가능하게 하여 특징 학습과 매칭 결정 간의 상호적응을 향상시키고 수동 하이퍼파ram터 조정을 줄인다.
다중 수준 행렬 손실을 설계하여 구성된 감독 신호를 통해 훈련 안정성과 성능을 향상시키며, 특히 데이터가 적은 환경에서의 성능 향상을 도모한다.
복잡한 추적 시나리오에서 고도로 동적인 객체를 다룰 때 GNN 기반 최적화가 RNN/LSTM 기반 접근법을 능가할 수 있음을 입증한다.

제안 방법

노드가 추적 트랙과 검출 결과를 나타내는 그래프에서, 간선 가중치가 쌍별 유사도를 나타내는 최대 가중 이분 매칭 문제로 프레임 단위 데이터 연동을 수식화한다.
심층 신경망을 사용해 외관 및 운동 특징을 동시에 인코딩하고, 학습된 거리 측정법을 통해 쌍별 유사도 점수를 계산하는 유사도 학습 모듈을 설계한다.
메시지 전파를 통해 이분 그래프에서 최종 매칭을 추론하는 GNN 기반 최적화 모듈을 구현하여, 다양한 수의 객체를 동적으로 처리하고 관계 기반 추론 능력을 향상시킨다.
유사도 행렬, 운동 특징, 최종 연동 출력에 대한 감독을 통합한 다중 수준 행렬 손실을 도입하여, 강력한 일반화 능력을 갖춘 효과적인 엔드 투 엔드 훈련을 가능하게 한다.
지표 연동 결과에 대한 지도 학습을 통해 전체 프레임워크를 엔드 투 엔드로 훈련하며, 후처리 히우리스틱이나 테스트 시 조정을 피한다.
로컬 노드 및 간선에서만 작동하는 메시지 전파 GNN 아키텍처를 사용하여 확장성과 동적 시나리오의 카디널리티와의 호환성을 확보한다.

실험 결과

연구 질문

RQ1GNN 기반의 학습 가능한 엔드 투 엔드 프레임워크가 기존 수작업 설계된 데이터 연동 모듈보다 온라인 다중객체 추적에서 뛰어난 성능을 낼 수 있는가?
RQ2공동 학습된 유사도 모듈에서 외관 및 운동 신호를 통합함으로써 추적 정확도와 강건성이 얼마나 향상되는가?
RQ3GNN 기반 최적화 모듈은 실시간 추적에서 조합적 난이도와 변동하는 카디널리티 문제를 어떻게 다루는가?
RQ4유사도, 운동, 출력 등 여러 네트워크 구성 요소에 걸쳐 구성된 감독이 단일 감독 기반 베이스라인보다 더 나은 수렴과 성능을 이끌어내는가?
RQ5제안된 프레임워크는 추론 시 후처리 히우리스틱이나 데이터 증강에 의존하지 않고도 경쟁 가능한 성능을 달성할 수 있는가?

주요 결과

제안된 엔드 투 엔드 GNN 기반 추적기는 MOT17 벤치마크에서 45.4% MOTA와 27.8% IDF1을 달성하여 이전의 온라인 추적기들, 특히 RNN-LSTM 및 RMOT를 능가한다.
MOT15에서 39.5% IDF1을 기록하며 RNN-LSTM 베이스라인 대비 3.5% 향상되었고, MOTA와 MT에서 각각 12.8% 및 3.5% 향상되었다.
제거 실험 결과, GNN 최적화 모듈이 기여도가 크게 높으며, 이를 포함하지 않은 베이스라인 대비 MOTA가 15% 향상되었고, 구성된 감독이 단일 감독 훈련 대비 성능을 4.9% 향상시켰다.
전체 모델은 단일 감독 기반 베이스라인 대비 ID 스위치를 7.7% 감소시켜 장기적인 트랙 유지 능력 향상을 보였다.
테스트 시 히우리스틱이나 데이터 증강을 사용하지 않아도 강력한 일반화 능력을 보이며, 최소한의 하이퍼파ram터 조정으로도 성능 유지를 할 수 있었다.
GNN 모듈은 객체 생성 및 소멸을 동적으로 대응하여 변화하는 그래프 크기에 적응함으로써, 전통적 해법에서 흔히 발생하는 선형 할당 제약 위반을 피할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.