[논문 리뷰] RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking
이 논문은 RT-RMOT를 도입하고 RefRT RGB-Thermal RMOT 데이터셋을 제안하며, 다중모달 대형 언어 모델에 강화 학습 기능을 결합한 RTrack이라는 다중모달 프레임워크를 제시하여 RGB-T RMOT에서 최첨단 성능을 달성한다.
Referring Multi-Object Tracking has attracted increasing attention due to its human-friendly interactive characteristics, yet it exhibits limitations in low-visibility conditions, such as nighttime, smoke, and other challenging scenarios. To overcome this limitation, we propose a new RGB-Thermal RMOT task, named RT-RMOT, which aims to fuse RGB appearance features with the illumination robustness of the thermal modality to enable all-day referring multi-object tracking. To promote research on RT-RMOT, we construct the first Referring Multi-Object Tracking dataset under RGB-Thermal modality, named RefRT. It contains 388 language descriptions, 1,250 tracked targets, and 166,147 Language-RGB-Thermal (L-RGB-T) triplets. Furthermore, we propose RTrack, a framework built upon a multimodal large language model (MLLM) that integrates RGB, thermal, and textual features. Since the initial framework still leaves room for improvement, we introduce a Group Sequence Policy Optimization (GSPO) strategy to further exploit the model's potential. To alleviate training instability during RL fine-tuning, we introduce a Clipped Advantage Scaling (CAS) strategy to suppress gradient explosion. In addition, we design Structured Output Reward and Comprehensive Detection Reward to balance exploration and exploitation, thereby improving the completeness and accuracy of target perception. Extensive experiments on the RefRT dataset demonstrate the effectiveness of the proposed RTrack framework.
연구 동기 및 목표
- 저조도 환경(야간, 연기)에서 RGB, 열화상, 언어 신호를 융합하여 로버스트한 지시형 다중 객체 추적을 모티브 삼는다.
- 픽셀 수준의 RGB–열 정렬 및 언어 주석이 포함된 최초의 RGB-T RMOT 데이터셋 RefRT를 생성한다.
- RGB-열-언어 인식을 위한 다중 모달 학습 프레임워크인 RTrack를 개발한다.
- RL 파인튜닝의 안정화를 위해 GSPO, CAS 최적화 전략과 탐색- exploited 균형을 위한 보상 설계를 도입한다.
제안 방법
- 다음의 세 모듈 프레임워크인 RTrack를 제안한다: Alignment된 RGB와 열 입력에서 MLLM을 이용한 교차모달 위치추정을 수행하는 대형 모델 지각 모듈; 칼만 필터를 이용한 운동 사전을 갖춘 궤적 예측 모듈; IoU 기반 헝가리 매칭으로 신원 연결을 유지하는 신원 연관 모듈.
- 다중 모달 융합의 RL 파인튜닝을 GSPO로 시퀀스 수준 출력 최적화, 그래디언트 폭발을 억제하는 CAS, 구조화된 출력 보상과 포괄적 탐지 보상으로 출력을 균형 있게 조정하는 규칙 기반 보상 체계를 강화한다.
- RefRT를 LasHeR 및 VTUAV를 기반으로 구성하고, GPT 보조 특성 생성 후 인간 검증으로 388개 언어 설명, 1,250개 대상, 72개 씬 및 166,147개의 RGB–Thermal–Language 트리플을 얻는다.
- RefRT에서 RMOT 스타일 지표(HOTA, DetA, AssA, DetRe, DetPr, AssRe, AssPr, LocA)를 사용하여 평가하고, RGB-T 입력 하에서 RTrack의 SOTA 성능을 입증한다.
실험 결과
연구 질문
- RQ1RGB-열 데이터 융합이 저가시성 시나리오에서 하루 종일 로버스트한 RMOT를 도출할 수 있는가?
- RQ2Kalman 필터 보조 궤적 모델과 IoU 기반 신원 연관이 결합된 MLLM 기반 인식이 RT-RMOT에서 어떤 성능을 보이는가?
- RQ3GSPO와 CAS와 같은 강화 학습 파인튜닝 전략과 구조화된 보상이 교차 모달 추적 성능과 안정성을 개선하는가?
- RQ4 RT-RMOT 설정에서 RGB 대 RGB-T 입력이 RMOT 성능에 미치는 영향은 어떠한가?
주요 결과
| 모달리티 | 방법 | 대회/저널 | HOTA | DetA | AssA | DetRe | DetPr | AssRe | AssPr | LocA |
|---|---|---|---|---|---|---|---|---|---|---|
| RGB | TransRMOT | CVPR 2023 | 8.69 | 2.57 | 29.96 | 3.01 | 14.46 | 30.73 | 85.49 | 79.63 |
| RGB | TempRMOT | ArXiv 2024 | 8.19 | 1.86 | 36.23 | 2.04 | 16.68 | 39.28 | 75.39 | 77.48 |
| RGB | CRTracker | AAAI 2025 | 9.30 | 2.37 | 37.01 | 3.81 | 5.83 | 40.10 | 67.48 | 73.25 |
| RGB | YOLOX+ByteTrack+ iKUN | CVPR 2024 | 2.32 | 0.29 | 19.86 | 0.29 | 12.71 | 21.18 | 61.45 | 69.70 |
| RGB | Qwen2.5-VL-3B | ArXiv 2025 | 2.09 | 0.93 | 5.28 | 0.97 | 17.14 | 5.40 | 87.46 | 76.69 |
| RGB-T | DeformCAT +SORT+iKUN | IEEE TMM | 2.03 | 0.41 | 11.25 | 0.77 | 0.87 | 12.07 | 47.65 | 62.61 |
| RGB-T | Unismot +iKUN | PR 2025 | 1.95 | 0.29 | 14.34 | 0.31 | 3.98 | 15.41 | 65.48 | 70.86 |
| RGB-T | PFTrack +iKUN | PR 2025 | 8.55 | 1.66 | 45.92 | 2.40 | 5.05 | 49.15 | 73.96 | 76.31 |
| RGB-T | MCTrack +iKUN | TCSVT 2025 | 4.71 | 1.22 | 18.91 | 1.51 | 5.73 | 19.83 | 71.17 | 68.95 |
| RGB-T | Qwen2.5-VL-3B(baseline) | ArXiv 2025 | 4.98 | 2.59 | 10.19 | 3.05 | 14.29 | 10.65 | 83.40 | 75.52 |
| RGB-T | RTrack | Ours | 15.53 | 12.39 | 20.79 | 20.15 | 22.78 | 22.02 | 81.99 | 75.53 |
- RTrack은 RefRT에서 최첨단 성능을 달성하며, RGB 및 RGB-T 베이스라인에 비해 지표(HOTA, DetA, DetRe 등)가 크게 향상된다.
- RGB 입력일 때 RL 파인튜닝된 RTrack은 비트훈련 버전에 비해 HOTA를 10.4 포인트 올리고, RGB-T 입력 시 여러 지표에서 10포인트 이상 향상된다.
- RGB-T 입력은 RGB 단독 베이스라인보다 우수하여 모든 날 RMOT에 열 영상 정보의 가치가 확인된다.
- 실험에서 Qwen2.5-VL-3B가 다중모달 융합의 강력한 기준 모델로 나타났으며, RGB-T 및 RL 파인튜닝을 적용한 RTrack은 RGB 베이스라인을 지속적으로 능가한다.
- GSPO와 CAS 및 구조적/포괄적 보상은 안정성, 출력 품질, 다중 목표 탐지 정확도에 크게 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.