QUICK REVIEW

[論文レビュー] RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

Yanqiu Yu, Zhifan Jin|arXiv (Cornell University)|Feb 25, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

この論文は RT-RMOT を導入し、RefRT RGB-Thermal RMOT データセットと RTrack を提案します。RTrack は RTrack は、強化学習の強化を取り入れたマルチモーダル大規模言語モデルを用いたマルチモーダルフレームワークで、RGB-T RMOT の最先端性能を達成します。

ABSTRACT

Referring Multi-Object Tracking has attracted increasing attention due to its human-friendly interactive characteristics, yet it exhibits limitations in low-visibility conditions, such as nighttime, smoke, and other challenging scenarios. To overcome this limitation, we propose a new RGB-Thermal RMOT task, named RT-RMOT, which aims to fuse RGB appearance features with the illumination robustness of the thermal modality to enable all-day referring multi-object tracking. To promote research on RT-RMOT, we construct the first Referring Multi-Object Tracking dataset under RGB-Thermal modality, named RefRT. It contains 388 language descriptions, 1,250 tracked targets, and 166,147 Language-RGB-Thermal (L-RGB-T) triplets. Furthermore, we propose RTrack, a framework built upon a multimodal large language model (MLLM) that integrates RGB, thermal, and textual features. Since the initial framework still leaves room for improvement, we introduce a Group Sequence Policy Optimization (GSPO) strategy to further exploit the model's potential. To alleviate training instability during RL fine-tuning, we introduce a Clipped Advantage Scaling (CAS) strategy to suppress gradient explosion. In addition, we design Structured Output Reward and Comprehensive Detection Reward to balance exploration and exploitation, thereby improving the completeness and accuracy of target perception. Extensive experiments on the RefRT dataset demonstrate the effectiveness of the proposed RTrack framework.

研究の動機と目的

低視界条件（夜間、煙）での頑健な referring multi-object tracking を RGB、熱画像、言語の手掛かりを融合して動機付ける。
ピクセルレベルの RGB–熱整列と言語アノテーションを持つ初の RGB-T RMOT データセット RefRT を作成する。
RGB-熱-言語の共同認識と追跡のための MLLM を活用する多模態学習フレームワーク RTrack を開発する。
最適化戦略（GSPO、CAS）と報酬設計を導入して RT-RMOT の強化学習微調整を安定化させ、探索と活用のバランスを取る。

提案手法

RTrack を提案する。三つのモジュールからなるフレームワーク： aligned RGB および熱入力と言語記述を用いた跨モーダル局所化のための大規模モデル認識モジュール（MLLM）、運動事前情報のためのカルマンフィルタを用いた軌跡予測モジュール、IoU ベースのハンガリアンマッチングによるアイデンティティ更新を行うアイデンティティ結合モジュール。
RL 微調整を GSPO（グループシーケンスポリシー最適化）でシーケンスレベルの出力を最適化し、CAS（クリップドアドバンテージスケーリング）で勾配爆発を抑制し、Structured Output Reward と Comprehensive Detection Reward からなるルールベースの報酬設計で出力構造・長さ・検出品質のバランスを取る。
RefRT は LasHeR および VTUAV をベースとして構築し、GPT 支援の属性生成を経て人間による検証を行い、388 件の言語記述、1,250 件のターゲット、72 シーン、166,147 件の RGB–Thermal–Language トリプレットを取得する。
RefRT 上で RMOT-スタイルの指標（HOTA、DetA、AssA、DetRe、DetPr、AssRe、AssPr、LocA）を用いて評価し、RGB-T 入力下での RTrack が最先端の性能を示すことを実証する。

実験結果

リサーチクエスチョン

RQ1RGB-T へのデータフュージョンと言語指示が低視界条件でのオールデイ RMOT の頑健性を生み出すか。
RQ2Kalman フィルタ支援の軌跡モデルと IoU ベースのアイデンティティ結合を組み合わせた MLLM ベースの知覚は RT-RMOT においてどの程度性能を発揮するか。
RQ3強化学習微調整戦略（GSPO と CAS）と構造化報酬は横断モーダル追跡の性能と安定性を改善するか。
RQ4RT-RMOT 設定における RGB vs RGB-T 入力が RMOT 性能に与える影響はどの程度か。

主な発見

モダリティ	手法	会場	HOTA	DetA	AssA	DetRe	DetPr	AssRe	AssPr	LocA
RGB	TransRMOT	CVPR 2023	8.69	2.57	29.96	3.01	14.46	30.73	85.49	79.63
RGB	TempRMOT	ArXiv 2024	8.19	1.86	36.23	2.04	16.68	39.28	75.39	77.48
RGB	CRTracker	AAAI 2025	9.30	2.37	37.01	3.81	5.83	40.10	67.48	73.25
RGB	YOLOX+ByteTrack+ iKUN	CVPR 2024	2.32	0.29	19.86	0.29	12.71	21.18	61.45	69.70
RGB	Qwen2.5-VL-3B	ArXiv 2025	2.09	0.93	5.28	0.97	17.14	5.40	87.46	76.69
RGB-T	DeformCAT +SORT+iKUN	IEEE TMM	2.03	0.41	11.25	0.77	0.87	12.07	47.65	62.61
RGB-T	Unismot +iKUN	PR 2025	1.95	0.29	14.34	0.31	3.98	15.41	65.48	70.86
RGB-T	PFTrack +iKUN	PR 2025	8.55	1.66	45.92	2.40	5.05	49.15	73.96	76.31
RGB-T	MCTrack +iKUN	TCSVT 2025	4.71	1.22	18.91	1.51	5.73	19.83	71.17	68.95
RGB-T	Qwen2.5-VL-3B(baseline)	ArXiv 2025	4.98	2.59	10.19	3.05	14.29	10.65	83.40	75.52
RGB-T	RTrack	Ours	15.53	12.39	20.79	20.15	22.78	22.02	81.99	75.53

RTrack は RefRT で最先端の性能を達成し、HOTA、DetA、DetRe などの指標で RGB および RGB-T のベースラインと比較して顕著な改善を示した。
RGB 入力下では RL 微調整された RTrack が未学習版より HOTA を10.4ポイント改善；RGB-T 入力下では複数指標で 10 ポイント超の改善を達成。
RGB-T 入力は RGB のみのベースラインを上回り、全日 RMOT における熱の輪郭情報の価値を裏付ける。
アブレーション実験では Qwen2.5-VL-3B が tested LLM バックボーンのマルチモーダル融合で強力なベースラインとなり、RGB-T かつ RL 微調整を行った RTrack は RGB ベースラインを一貫して上回る。
GSPO と CAS、および構造化・包括的報酬は、安定性、出力品質、およびマルチターゲット検出精度に大きく寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。